← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.AI·4/8/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

27
RESEARCHarXiv CS.AI·4/7/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27
RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.CL·4/6/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA is a new three-tier benchmark of 293 open-ended engineering thermodynamics problems introduced to evaluate thermodynamic reasoning in LLMs. Leading LLMs like Claude Opus 4.6 and GPT-5.4 achieve high scores, but cross-tier degradation confirms that property memorization does not imply thermodynamic reasoning, with the dataset and code being open-source.

27