large language models

262 items

ARTICLETogether AI Blog·hace 8d

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together logró una inferencia eficiente para MiniMax-M3, desbloqueando un contexto de 1M de tokens y multimodalidad. Esto se consiguió mediante atención dispersa KV-block-major, decodificación paged MSA, puntuación de índice optimizada y una puerta de enlace multimodal basada en Rust.

System Design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·7/4/2026

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Este trabalho apresenta um framework automatizado para comparar documentos de política de segurança de IA usando LLMs e uma taxonomia compartilhada, avaliando a estabilidade e validade da análise.

Policy Analysis Crosswalk Framework Automated Analysis large language models

RESEARCHarXiv CS.AI·8/4/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

Otimização Combinatória Inteligência Artificial Algoritmos Evolutivos Heurísticas

RESEARCHarXiv CS.AI·8/4/2026

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Grandes modelos de linguagem (LLMs) falham em raciocínio sistemático e frequentemente alucinam, expondo uma lacuna epistêmica. Pramana é uma nova abordagem que ensina metodologia epistemológica explícita a LLMs, através de fine-tuning na lógica Navya-Nyaya, um framework de raciocínio indiano milenar.

Epistemic Reasoning hallucination large language models Fine-tuning

RESEARCHarXiv CS.AI·7/4/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

RESEARCHarXiv CS.CL·6/4/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·6/4/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation

ARTICLEOpenAI Blog·29/4/2026

Where the goblins came from

Este contenido analiza cómo los 'resultados duende' o peculiaridades de personalidad se propagan en modelos de IA como GPT-5. Detalla la línea de tiempo, la causa raíz y las soluciones para estos comportamientos.

model debugging AI behavior large language models

RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·hace 28d

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Este trabajo investiga el uso de grandes modelos de lenguaje (LLMs) para tareas en ciudades inteligentes, utilizando imágenes de teledetección para caracterizar el entorno construido en múltiples escalas espaciales. Los resultados demuestran el potencial de integrar la teledetección con los LLMs para asistir a las ciudades inteligentes y la toma de decisiones.

Built Environment Urban Planning Remote sensing large language models

RESEARCHarXiv CS.CL·hace 28d

Effective Explanations Support Planning Under Uncertainty

Esta investigación propone un modelo computacional que utiliza un gran modelo de lenguaje y un agente de planificación para convertir explicaciones en planes de acción para la navegación bajo incertidumbre. Los experimentos demuestran que las explicaciones de mayor calidad, puntuadas por el modelo, mejoran significativamente la navegación humana y se perciben como más útiles.

Planning Explanation Generation human-AI interaction AI

RESEARCHarXiv CS.CL·hace 28d

Sanity Checks for Long-Form Hallucination Detection

Este trabajo de investigación presenta una metodología de invariancia controlada para la detección de alucinaciones en grandes modelos de lenguaje. Mediante pruebas de oráculo como extsc{Force} y extsc{Remove}, se explora si los métodos evalúan el razonamiento o solo correlatos superficiales de la respuesta final.

hallucination detection Chain-of-Thought large language models LLM evaluation

RESEARCHarXiv CS.CL·hace 28d

Change My View? The Dynamics of Persuasion and Polarization in Online Discourse

Este estudio utiliza grandes modelos de lenguaje para analizar debates en r/ChangeMyView de Reddit, donde la revisión de creencias se señala públicamente. La investigación revela que estrategias retóricas como la concesión y la alineación empática aumentan significativamente la probabilidad de cambio de creencias.

social media online discourse rhetoric large language models

NEWSGoogle DeepMind Blog·hace 23d

Introducing Gemini Omni

Este es el anuncio de Gemini Omni, una nueva iteración de la familia de modelos de IA de Google.

New Product Google AI Gemini AI

NEWSHugging Face Blog·28/4/2026

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

NVIDIA presenta Nemotron 3 Nano Omni, un nuevo modelo de IA multimodal de contexto largo. Está diseñado para ofrecer inteligencia para agentes que trabajan con documentos, audio y video.

multimodal AI large language models NVIDIA AI agents

NEWSTwo Minute Papers (YouTube)·6/5/2026

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

DeepSeek V4 AI ha superado a sistemas de IA costosos y consolidados, estando disponible de forma gratuita. Este desarrollo subraya los avances en inteligencia artificial accesible y de alto rendimiento.

DeepSeek AI models open-source AI large language models

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

RESEARCHarXiv CS.AI·7/4/2026

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Esta investigación presenta IC3-Evolve, un método novedoso para la verificación de modelos de hardware. Emplea la evolución heurística offline impulsada por LLM y guiada por pruebas/testigos para mejorar la eficiencia del algoritmo IC3.

Heuristics formal methods large language models model checking

RESEARCHarXiv CS.CL·7/4/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" propone un método de entrega de conocimiento de "token cero" para grandes modelos de lenguaje (LLMs) mediante la inyección directa de información en la caché KV. Esta técnica busca mejorar el rendimiento de los LLM y reducir los costos de inferencia al integrar eficientemente el conocimiento externo sin consumir tokens de contexto.

Knowledge Injection machine learning AI large language models

RESEARCHHugging Face (YouTube)·16/4/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Este contenido del Hugging Face Journal Club explora un método de auto-destilación "vergonzosamente simple" que mejora notablemente la generación de código. Destaca avances en el aprovechamiento de modelos de lenguaje grandes para tareas de programación.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

RESEARCHQwen Blog·5/3/2025

QwQ-32B: Embracing the Power of Reinforcement Learning

O conteúdo aborda o potencial do Aprendizado por Reforço (RL) em escala para aprimorar o desempenho e as capacidades de raciocínio de modelos de IA, superando métodos convencionais. A pesquisa explora especificamente o impacto do RL na inteligência de Grandes Modelos de Linguagem (LLMs), citando exemplos como o DeepSeek R1.

model performance deep learning reinforcement learning large language models