heapsort-ai — Notícias, Artigos e Pesquisas de IA

RESEARCHarXiv CS.CL·06/04/2026

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Este artigo explora se os LLMs aproximam quantitativamente o significado social humano e se estratégias de prompting pragmático podem melhorar essa aproximação. Para isso, introduz métricas de calibração (ESR, CDS) e observa que os modelos reproduzem a estrutura qualitativa das inferências sociais humanas, mas diferem substancialmente em outros aspectos.

29
RESEARCHarXiv CS.CL·06/04/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27
RESEARCHarXiv CS.CL·06/04/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

29
RESEARCHarXiv CS.LG·06/04/2026

Homophily-aware Supervised Contrastive Counterfactual Augmented Fair Graph Neural Network

Este trabalho propõe um novo modelo para treinar Redes Neurais Gráficas (GNNs) sensíveis à justiça, aprimorando o framework CAF. A abordagem utiliza uma estratégia de treinamento em duas fases, editando o grafo para ajustar a homofilia e integrando perdas contrastivas e ambientais modificadas para melhorar a predição e a justiça.

27
RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27
RESEARCHarXiv CS.CL·06/04/2026

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

CIPHER é um modelo baseado em Conformer para inferência de fonemas a partir de EEG de alta densidade, visando decodificar informações de fala do cérebro. Embora alcance alta performance em tarefas binárias, mostra desempenho limitado na discriminação de fonemas de 11 classes, sendo posicionado como um estudo de benchmark e comparação de características.

27
RESEARCHarXiv CS.CL·06/04/2026

PolyJarvis: LLM Agent for Autonomous Polymer MD Simulations

PolyJarvis é um agente LLM que automatiza simulações de dinâmica molecular de polímeros para prever propriedades a partir de linguagem natural, utilizando a plataforma RadonPy. O sistema executa tarefas desde a construção do monômero até o cálculo de propriedades, mostrando previsões precisas de densidade e módulos de elasticidade para polímeros como aPS e PMMA.

29
RESEARCHarXiv CS.CL·06/04/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.LG·06/04/2026

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

27
RESEARCHarXiv CS.CL·06/04/2026

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

27
RESEARCHarXiv CS.CL·06/04/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

27
RESEARCHarXiv CS.LG·06/04/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27
RESEARCHarXiv CS.LG·06/04/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

27