← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.AI·4/8/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

27
RESEARCHarXiv CS.AI·4/7/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27
RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.CL·4/6/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

27
RESEARCHarXiv CS.CL·vor 28T

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Diese Arbeit untersucht den Einsatz großer Sprachmodelle (LLMs) für Aufgaben in Smart Cities, indem sie Fernerkundungsbilder zur Charakterisierung der gebauten Umgebung auf mehreren räumlichen Skalen nutzt. Die Ergebnisse zeigen das Potenzial der Integration von Fernerkundung mit LLMs zur Unterstützung von Smart Cities und Entscheidungsfindung.

27