← heapsort-ai

large language models

265 items

RESEARCHarXiv CS.CL·il y a 9j

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Cet article de recherche examine la dominance narrative globale dans les Grands Modèles Linguistiques (LLMs), où les connaissances culturelles locales sont souvent éclipsées par les récits mondiaux. Il introduit l'ensemble de données CulturalNB pour les contextes culturels bengalis et démontre que les questions posées en anglais augmentent la substitution globale et le cadrage institutionnel, réduisant la couverture des perspectives locales.

27
RESEARCHarXiv CS.CL·il y a 16j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

27
RESEARCHarXiv CS.CL·il y a 13j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

27
RESEARCHarXiv CS.CL·il y a 14j

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Cette recherche présente EnterpriseMem-Bench, un nouveau benchmark Text-to-SQL multi-tour avec 300 sessions et 1 400 tours issus de domaines d'entreprise. Elle évalue empiriquement cinq modèles de pointe, dont des variantes GPT et Claude, révélant que les modèles Text-to-SQL multi-tour sans état atteignent une précision d'exécution nulle dès le Tour 3.

27
ARTICLEDEV.to AI·25/04/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Cet article compare les derniers modèles d'IA phares — GPT-5.5, Claude Opus 4.7 et Gemini 3.1 Pro — pour les flux de travail de production, la création d'agents et les outils de codage. Il soutient qu'aucun modèle n'est universellement supérieur, le choix dépendant des tâches spécifiques, du prix et de l'infrastructure, en particulier pour le codage agentique à enjeux élevés.

27
ARTICLEDEV.to AI·16/04/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Le professeur Alois Knoll, chercheur en robotique et IA, affirme que la véritable intelligence nécessite un corps, car les grands modèles de langage sont confinés à l'espace numérique et manquent d'expérience physique. Il souligne l'importance des robots humanoïdes pour collecter des données dans le monde réel, offrant un niveau de compréhension que l'analyse textuelle pure ne peut remplacer.

27
NEWSDEV.to AI·25/04/2026

OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)

OpenAI a lancé GPT-5.5, un modèle fondamentalement différent conçu pour gérer des tâches complexes en plusieurs parties nécessitant un raisonnement multi-étapes soutenu. Cette itération vise à réduire le besoin de surveillance constante, permettant aux développeurs de lui faire confiance pour la planification et la gestion de l'ambiguïté.

27
ARTICLEDEV.to AI·25/04/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Cet article décrit un audit de visibilité IA réalisé pour une entreprise sur des plateformes comme ChatGPT, Claude, Gemini et Perplexity, révélant que l'optimisation SEO traditionnelle pour Google est insuffisante. L'audit a testé la manière dont les modèles d'IA représentent une entreprise via des requêtes de catégorie générale et de marque spécifique, indiquant une lacune significative dans les stratégies d'optimisation actuelles pour les plateformes d'IA.

27
DOCDEV.to AI·26/04/2026

GPT-5.5 System Card

La carte système GPT-5.5 d'OpenAI présente un modèle de langage basé sur les transformeurs, s'appuyant sur GPT-3 avec un accent sur la mise à l'échelle et le réglage fin. Son architecture est principalement de type décodeur uniquement, utilisant des mécanismes d'auto-attention et des réseaux feed-forward.

27
ARTICLEDEV.to AI·25/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, un modèle MoE de 1.6T paramètres avec 1M de tokens de contexte, a été lancé, apportant des améliorations significatives pour les agents IA, notamment des modes doubles Think/Non-Think et un appel de fonction plus fiable. Il se positionne comme une alternative rentable et performante, surpassant des modèles comme Claude Sonnet et GPT-4o pour les charges de travail des agents.

27
DOCDEV.to AI·il y a 29j

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Une pile de codage IA à 30 $/mois, utilisant des API pay-per-token comme Claude Opus 4.7, peut remplacer des abonnements à 200 $/mois en privilégiant la stratégie de routage sur le choix individuel des modèles. Cette approche évite les plafonds d'utilisation fréquents dans les structures à coût fixe, offrant des coûts par tâche plus prévisibles.

27
NEWSDEV.to AI·15/04/2026

AI Weekly: Agents, Models, and Chips — April 9–15, 2026

Cette semaine, les outils de codage IA tels que Cursor, Claude Code et OpenAI Codex convergent vers des environnements de développement unifiés, tandis que de nouveaux modèles linguistiques rehaussent le niveau multimodal. De plus, le matériel conçu pour les charges de travail agentiques est désormais disponible, avec 84 % des développeurs utilisant quotidiennement des outils de codage IA.

27
RESEARCHarXiv CS.CL·06/04/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

27
RESEARCHarXiv CS.CL·30/04/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Cet article évalue un assistant virtuel basé sur l'IA générative utilisant la génération augmentée par récupération (RAG) pour aider les étudiants de l'Université de Maastricht avec les règlements de projet. Le système vise à résoudre les problèmes d'hallucinations et à fournir des réponses précises et spécifiques au contexte en intégrant des connaissances spécifiques au domaine.

27