← heapsort-ai

large language models

265 items

RESEARCHarXiv CS.CL·13/04/2026

Drift and selection in LLM text ecosystems

Cet article propose un cadre mathématique pour analyser le processus récursif où le texte généré par l'IA remodèle le registre public à partir duquel les LLM apprennent. Il distingue la "dérive", qui élimine les formes rares, et la "sélection", qui filtre le contenu, montrant que la sélection normative préserve des structures linguistiques plus profondes.

29
RESEARCHarXiv CS.LG·il y a 20j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

29
RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

29
RESEARCHarXiv CS.CL·08/04/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
RESEARCHDEV.to AI·il y a 18j

Hugging Face: New Research Highlights Value of Specialized AI Models

Hugging Face a publié une recherche de Dharma AI le 22 mai 2026, soulignant que les modèles d'IA spécialisés peuvent surpasser les modèles plus grands et à usage général dans des tâches spécifiques. L'étude suggère un changement stratégique dans l'acquisition d'IA, mettant l'accent sur les performances et l'efficacité spécifiques à la tâche.

29
RESEARCHarXiv CS.LG·il y a 21j

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la performance des grands modèles linguistiques dans l'interaction critique scientifique. Il aborde le problème des LLM qui abandonnent des solutions correctes après une critique de l'utilisateur, en se concentrant sur les transitions de correction entre les tours et en catégorisant les comportements tels que la correction, la sycophanie et la robustesse.

29
RESEARCHarXiv CS.CL·il y a 16j

Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

Cette recherche étudie la capacité des Grands Modèles Linguistiques (LLMs) à déduire les connaissances de domaine individuelles à partir des journaux de communication Slack à long terme. En évaluant sept modèles par rapport à des auto-évaluations de compétences, Gemini 2.5 Flash a atteint l'erreur la plus faible, démontrant la faisabilité et les limites actuelles de la cartographie automatisée de l'expertise.

28
RESEARCHarXiv CS.LG·23/04/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» propose une méthode pour étendre progressivement la capacité des Mixture-of-Experts (MoE) dans les grands modèles de langage pendant le pré-entraînement continu. Cette approche augmente le nombre d'experts par duplication et extension du routeur pour une initialisation à chaud, visant à réduire les coûts d'entraînement tout en conservant le coût d'inférence par jeton.

28
ARTICLEDEV.to AI·10/04/2026

AI21 Labs — Deep Dive

AI21 Labs é uma empresa israelense de IA e produto, um player significativo no espaço de IA generativa, competindo com gigantes como OpenAI. A empresa escalou seus modelos de linguagem de 1.5 bilhões para até 398 bilhões de parâmetros, oferecendo produtos como o assistente de escrita Wordtune e o modelo de contexto longo Jamba.

28
ARTICLEDEV.to AI·02/05/2026

From prompt engineering to context engineering

L'article propose un passage crucial de l'ingénierie d'invites à l'ingénierie de contexte, affirmant que de nombreuses défaillances de l'IA proviennent d'un manque d'informations pertinentes plutôt que d'une mauvaise formulation. L'ingénierie de contexte implique de fournir délibérément à l'IA des données cruciales, telles que des instructions système, de la documentation de projet et des fichiers source, avant qu'elle n'agisse.

28
ARTICLEDEV.to AI·22/04/2026

A Looming Crisis of AI Generated Text

L'article traite du passage de l'assistance au remplacement du texte par l'IA, motivé par des modèles comme Mythos, et de son impact profond sur la littératie et l'éducation. L'auteur, qui travaille en apprentissage automatique et en littérature, rejette l'idée d'abandonner l'écriture humaine malgré l'efficacité de l'IA.

28
RESEARCHarXiv CS.AI·14/04/2026

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

Cet article présente Vigil, un nouveau système d'agent IA proactif conçu pour soutenir les analystes humains lors des interactions de support sur les plateformes de services cloud. Contrairement aux agents réactifs, Vigil reste engagé tout au long du cycle de vie de la résolution, apprenant des cas non résolus et offrant une assistance continue pour réduire la charge de travail humaine.

28
RESEARCHarXiv CS.CL·14/04/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Cet article présente un pipeline pour générer des dialogues médicaux synthétiques en néerlandais, utilisant un grand modèle linguistique (LLM) affiné pour pallier la rareté des données cliniques due aux contraintes de confidentialité. Les évaluations ont montré une forte variété lexicale mais un flux de conversation scénarisé et des problèmes de spécificité du domaine lors de l'examen qualitatif.

28
RESEARCHarXiv CS.AI·il y a 5j

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Cet article analyse les stratégies de communication inter-agents dans les systèmes multi-agents basés sur les LLMs, constatant que le langage naturel non contraint peut augmenter l'utilisation des tokens et affecter les performances. Il propose PACT (Protocolized Action-state Communication and Transmission), une méthode pour optimiser la communication en projetant les sorties brutes des agents dans des enregistrements d'état-action compacts.

28
NEWSDEV.to AI·18/04/2026

Large Language Letters 04/18/2026

Le Claude Opus 4.7 d'Anthropic a démontré des avancées significatives sur divers benchmarks comme SWEBench Pro, GDP Val et les capacités de vision. Le modèle a surpassé les versions précédentes et les concurrents sur plusieurs métriques, bien que des observateurs indépendants aient noté quelques régressions.

28
RESEARCHarXiv CS.AI·07/04/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

28
RESEARCHarXiv CS.AI·07/04/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28