← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.AI·8/4/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

27
RESEARCHarXiv CS.AI·7/4/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27
RESEARCHarXiv CS.CL·6/4/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.CL·6/4/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

27
RESEARCHarXiv CS.CL·hace 28d

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Este trabajo investiga el uso de grandes modelos de lenguaje (LLMs) para tareas en ciudades inteligentes, utilizando imágenes de teledetección para caracterizar el entorno construido en múltiples escalas espaciales. Los resultados demuestran el potencial de integrar la teledetección con los LLMs para asistir a las ciudades inteligentes y la toma de decisiones.

27
RESEARCHarXiv CS.CL·hace 28d

Effective Explanations Support Planning Under Uncertainty

Esta investigación propone un modelo computacional que utiliza un gran modelo de lenguaje y un agente de planificación para convertir explicaciones en planes de acción para la navegación bajo incertidumbre. Los experimentos demuestran que las explicaciones de mayor calidad, puntuadas por el modelo, mejoran significativamente la navegación humana y se perciben como más útiles.

27
RESEARCHarXiv CS.CL·7/4/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" propone un método de entrega de conocimiento de "token cero" para grandes modelos de lenguaje (LLMs) mediante la inyección directa de información en la caché KV. Esta técnica busca mejorar el rendimiento de los LLM y reducir los costos de inferencia al integrar eficientemente el conocimiento externo sin consumir tokens de contexto.

27