large language models

265 items

RESEARCHarXiv CS.CL·il y a 9j

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Cet article de recherche examine la dominance narrative globale dans les Grands Modèles Linguistiques (LLMs), où les connaissances culturelles locales sont souvent éclipsées par les récits mondiaux. Il introduit l'ensemble de données CulturalNB pour les contextes culturels bengalis et démontre que les questions posées en anglais augmentent la substitution globale et le cadrage institutionnel, réduisant la couverture des perspectives locales.

Dataset Cross-lingual Cultural Bias Natural Language Processing

RESEARCHarXiv CS.CL·il y a 16j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

Game AI benchmarking deception large language models

RESEARCHarXiv CS.CL·il y a 13j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·il y a 14j

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Cette recherche présente EnterpriseMem-Bench, un nouveau benchmark Text-to-SQL multi-tour avec 300 sessions et 1 400 tours issus de domaines d'entreprise. Elle évalue empiriquement cinq modèles de pointe, dont des variantes GPT et Claude, révélant que les modèles Text-to-SQL multi-tour sans état atteignent une précision d'exécution nulle dès le Tour 3.

memory architectures Text-to-SQL enterprise analytics benchmarking

ARTICLEDEV.to AI·25/04/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Cet article compare les derniers modèles d'IA phares — GPT-5.5, Claude Opus 4.7 et Gemini 3.1 Pro — pour les flux de travail de production, la création d'agents et les outils de codage. Il soutient qu'aucun modèle n'est universellement supérieur, le choix dépendant des tâches spécifiques, du prix et de l'infrastructure, en particulier pour le codage agentique à enjeux élevés.

AI models benchmarking coding tools large language models

ARTICLEDEV.to AI·16/04/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Le professeur Alois Knoll, chercheur en robotique et IA, affirme que la véritable intelligence nécessite un corps, car les grands modèles de langage sont confinés à l'espace numérique et manquent d'expérience physique. Il souligne l'importance des robots humanoïdes pour collecter des données dans le monde réel, offrant un niveau de compréhension que l'analyse textuelle pure ne peut remplacer.

humanoid robots embodied AI AI large language models

NEWSDEV.to AI·25/04/2026

OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)

OpenAI a lancé GPT-5.5, un modèle fondamentalement différent conçu pour gérer des tâches complexes en plusieurs parties nécessitant un raisonnement multi-étapes soutenu. Cette itération vise à réduire le besoin de surveillance constante, permettant aux développeurs de lui faire confiance pour la planification et la gestion de l'ambiguïté.

AI models OpenAI GPT-5.5 large language models

ARTICLEDEV.to AI·25/04/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Cet article décrit un audit de visibilité IA réalisé pour une entreprise sur des plateformes comme ChatGPT, Claude, Gemini et Perplexity, révélant que l'optimisation SEO traditionnelle pour Google est insuffisante. L'audit a testé la manière dont les modèles d'IA représentent une entreprise via des requêtes de catégorie générale et de marque spécifique, indiquant une lacune significative dans les stratégies d'optimisation actuelles pour les plateformes d'IA.

digital-marketing SEO for AI large language models AI visibility

RESEARCHDEV.to AI·18/04/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory est présenté comme un framework unifié et efficace conçu pour le fine-tuning de plus de 100 modèles de langage. Il vise à optimiser et simplifier le processus d'adaptation d'une vaste gamme de LLM.

LLMs AI frameworks machine learning large language models

DOCDEV.to AI·26/04/2026

GPT-5.5 System Card

La carte système GPT-5.5 d'OpenAI présente un modèle de langage basé sur les transformeurs, s'appuyant sur GPT-3 avec un accent sur la mise à l'échelle et le réglage fin. Son architecture est principalement de type décodeur uniquement, utilisant des mécanismes d'auto-attention et des réseaux feed-forward.

AI architecture Natural Language Processing large language models

ARTICLEDEV.to AI·25/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, un modèle MoE de 1.6T paramètres avec 1M de tokens de contexte, a été lancé, apportant des améliorations significatives pour les agents IA, notamment des modes doubles Think/Non-Think et un appel de fonction plus fiable. Il se positionne comme une alternative rentable et performante, surpassant des modèles comme Claude Sonnet et GPT-4o pour les charges de travail des agents.

DeepSeek AI Model large language models performance

DOCDEV.to AI·il y a 29j

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Une pile de codage IA à 30 $/mois, utilisant des API pay-per-token comme Claude Opus 4.7, peut remplacer des abonnements à 200 $/mois en privilégiant la stratégie de routage sur le choix individuel des modèles. Cette approche évite les plafonds d'utilisation fréquents dans les structures à coût fixe, offrant des coûts par tâche plus prévisibles.

developer productivity Subscription models AI tools Cost Optimization

NEWSDEV.to AI·15/04/2026

AI Weekly: Agents, Models, and Chips — April 9–15, 2026

Cette semaine, les outils de codage IA tels que Cursor, Claude Code et OpenAI Codex convergent vers des environnements de développement unifiés, tandis que de nouveaux modèles linguistiques rehaussent le niveau multimodal. De plus, le matériel conçu pour les charges de travail agentiques est désormais disponible, avec 84 % des développeurs utilisant quotidiennement des outils de codage IA.

AI coding tools large language models AI agents

ARTICLEDEV.to AI·14/04/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

L'article présente la famille de grands modèles linguistiques MiniMax M2, utilisant une architecture Mixture of Experts pour des performances élevées à faible coût d'inférence. Le modèle M2.7 atteint 90 % de la qualité des modèles de pointe pour 7 % du coût, avec des résultats de référence comparables à Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2

ARTICLEDEV.to AI·09/04/2026

Meta's New Model Has 16 Tools. Here's What They Do.

O novo modelo Muse Spark da Meta, competitivo com GPT-5.4 e Gemini 3.1 Pro, destaca-se por seu catálogo de 16 ferramentas integradas. Ele oferece um sandbox Python 3.9 com OpenCV e permite gerar e analisar imagens instantaneamente no mesmo ambiente, incorporando recursos como o Segment Anything.

Muse Spark Meta AI image generation AI tools

CASEDEV.to AI·21/04/2026

How we built real-time deposition analysis with Claude's streaming API

Ce contenu décrit la construction d'un outil d'IA en temps réel pour les avocats spécialisés dans les fautes médicales afin d'analyser les dépositions. Le système utilise Deepgram pour la transcription en direct et Claude pour analyser des segments de 30 secondes, identifiant les admissions et les incohérences.

application development streaming-api large language models real-time AI

ARTICLEHugging Face Blog·24/04/2026

DeepSeek-V4: a million-token context that agents can actually use

DeepSeek-V4 lance un nouveau modèle de langage doté d'une fenêtre de contexte d'un million de tokens, spécifiquement conçu pour les agents IA. Cette avancée vise à améliorer considérablement la mémoire et les capacités de raisonnement des agents.

AI models Context window large language models AI agents

RESEARCHarXiv CS.CL·06/04/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual prompting computational linguistic sycophancy large language models

RESEARCHarXiv CS.LG·30/04/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Ce travail repense l'éviction du cache KV pour les LLM via un objectif informationnel-théorique dérivé du principe du Goulot d'Information. Il présente CapKV, une nouvelle méthode consciente de la capacité qui préserve l'information, surpassant les stratégies heuristiques existantes.

Memory Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·30/04/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Cet article évalue un assistant virtuel basé sur l'IA générative utilisant la génération augmentée par récupération (RAG) pour aider les étudiants de l'Université de Maastricht avec les règlements de projet. Le système vise à résoudre les problèmes d'hallucinations et à fournir des réponses précises et spécifiques au contexte en intégrant des connaissances spécifiques au domaine.

Retrieval Augmented Generation education Virtual Assistants large language models