large language models

262 items

ARTICLETogether AI Blog·il y a 8j

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together a réalisé une inférence efficace pour MiniMax-M3, débloquant un contexte de 1M de tokens et la multimodalité. Ceci a été accompli grâce à l'attention sparse KV-block-major, au décodage MSA paginé, à l'optimisation du score d'index et à une passerelle multimodale basée sur Rust.

System Design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·07/04/2026

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Este trabalho apresenta um framework automatizado para comparar documentos de política de segurança de IA usando LLMs e uma taxonomia compartilhada, avaliando a estabilidade e validade da análise.

Policy Analysis Crosswalk Framework Automated Analysis large language models

RESEARCHarXiv CS.AI·08/04/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

Otimização Combinatória Inteligência Artificial Algoritmos Evolutivos Heurísticas

RESEARCHarXiv CS.AI·08/04/2026

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Grandes modelos de linguagem (LLMs) falham em raciocínio sistemático e frequentemente alucinam, expondo uma lacuna epistêmica. Pramana é uma nova abordagem que ensina metodologia epistemológica explícita a LLMs, através de fine-tuning na lógica Navya-Nyaya, um framework de raciocínio indiano milenar.

Epistemic Reasoning hallucination large language models Fine-tuning

RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

RESEARCHarXiv CS.CL·06/04/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation

ARTICLEOpenAI Blog·29/04/2026

Where the goblins came from

Ce contenu analyse comment les "sorties gobelin" ou les bizarreries de personnalité se propagent dans les modèles d'IA comme GPT-5. Il détaille la chronologie, la cause profonde et les correctifs pour ces comportements.

model debugging AI behavior large language models

RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·il y a 28j

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Ce travail étudie l'utilisation des grands modèles de langage (LLMs) pour les tâches des villes intelligentes, en exploitant l'imagerie de télédétection pour caractériser l'environnement bâti à plusieurs échelles spatiales. Les résultats démontrent le potentiel d'intégration de l'imagerie de télédétection avec les LLMs pour aider les villes intelligentes et la prise de décision.

Built Environment Urban Planning Remote sensing large language models

RESEARCHarXiv CS.CL·il y a 28j

Effective Explanations Support Planning Under Uncertainty

Cette recherche propose un modèle computationnel utilisant un grand modèle linguistique et un agent de planification pour convertir des explications en plans d'action pour la navigation en incertitude. Les expériences montrent que des explications de meilleure qualité, évaluées par le modèle, améliorent significativement la navigation humaine et sont jugées plus utiles.

Planning Explanation Generation human-AI interaction AI

RESEARCHarXiv CS.CL·il y a 28j

Sanity Checks for Long-Form Hallucination Detection

Cet article de recherche introduit une méthodologie d'invariance contrôlée pour la détection des hallucinations dans les grands modèles de langage. En utilisant des tests oracle comme extsc{Force} et extsc{Remove}, il examine si les méthodes évaluent le raisonnement ou de simples corrélats superficiels de la réponse finale.

hallucination detection Chain-of-Thought large language models LLM evaluation

RESEARCHarXiv CS.CL·il y a 28j

Change My View? The Dynamics of Persuasion and Polarization in Online Discourse

Cette étude utilise de grands modèles de langage pour analyser les débats sur r/ChangeMyView de Reddit, où la révision des croyances est publiquement signalée. La recherche révèle que les stratégies rhétoriques telles que la concession et l'alignement empathique augmentent considérablement la probabilité de changement de croyance.

social media online discourse rhetoric large language models

NEWSGoogle DeepMind Blog·il y a 23j

Introducing Gemini Omni

Ceci est l'annonce de Gemini Omni, une nouvelle itération de la famille de modèles d'IA de Google.

New Product Google AI Gemini AI

NEWSHugging Face Blog·28/04/2026

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

NVIDIA lance Nemotron 3 Nano Omni, un nouveau modèle d'IA multimodal à long contexte. Il offre une intelligence pour les agents traitant des documents, de l'audio et de la vidéo.

multimodal AI large language models NVIDIA AI agents

NEWSTwo Minute Papers (YouTube)·06/05/2026

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

DeepSeek V4 AI aurait surpassé des systèmes d'IA coûteux et établis, et est disponible gratuitement. Ce développement met en évidence les avancées en matière d'intelligence artificielle accessible et performante.

DeepSeek AI models open-source AI large language models

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

RESEARCHarXiv CS.AI·07/04/2026

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Cette recherche introduit IC3-Evolve, une nouvelle méthode pour la vérification de modèles matériels. Elle utilise l'évolution heuristique hors ligne pilotée par LLM et contrôlée par preuves/témoins pour améliorer l'efficacité de l'algorithme IC3.

Heuristics formal methods large language models model checking

RESEARCHarXiv CS.CL·07/04/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" propose une méthode de livraison de connaissances "sans jeton" pour les grands modèles de langage (LLM) en injectant directement des informations dans le cache KV. Cette technique vise à améliorer les performances des LLM et à réduire les coûts d'inférence en intégrant efficacement des connaissances externes sans consommer de jetons de contexte.

Knowledge Injection machine learning AI large language models

RESEARCHHugging Face (YouTube)·16/04/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Ce contenu du Hugging Face Journal Club aborde une méthode d'auto-distillation "incroyablement simple" qui améliore significativement la génération de code. Il souligne les avancées dans l'exploitation des grands modèles de langage pour les tâches de programmation.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

RESEARCHQwen Blog·05/03/2025

QwQ-32B: Embracing the Power of Reinforcement Learning

O conteúdo aborda o potencial do Aprendizado por Reforço (RL) em escala para aprimorar o desempenho e as capacidades de raciocínio de modelos de IA, superando métodos convencionais. A pesquisa explora especificamente o impacto do RL na inteligência de Grandes Modelos de Linguagem (LLMs), citando exemplos como o DeepSeek R1.

model performance deep learning reinforcement learning large language models