heapsort-ai — Notícias, Artigos e Pesquisas de IA

RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27
RESEARCHarXiv CS.CL·07/04/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

27
RESEARCHarXiv CS.CL·07/04/2026

Text Summarization With Graph Attention Networks

Este estudo explorou o uso de informações de grafos (RST e Co-referência) para sumarização de texto, descobrindo que Redes de Atenção Gráficas não melhoraram o desempenho, enquanto um Perceptron Multicamadas obteve sucesso. Adicionalmente, foi criado um novo benchmark para sumarização baseada em grafos ao anotar o dataset XSum com informações RST.

27
RESEARCHarXiv CS.AI·07/04/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

28
RESEARCHarXiv CS.AI·07/04/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28
RESEARCHarXiv CS.AI·07/04/2026

Hume's Representational Conditions for Causal Judgment: What Bayesian Formalization Abstracted Away

O artigo explora as condições representacionais de Hume para o juízo causal e argumenta que frameworks modernos de IA, como a epistemologia Bayesiana e modelos de linguagem grandes, abstraem essas condições. Ele demonstra como, embora preservem a estrutura de atualização, falham em satisfazer requisitos fundamentais da psicologia causal de Hume, destacando lacunas na IA atual.

28
RESEARCHarXiv CS.AI·07/04/2026

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

TRACE-KG é um framework multimodal que constrói grafos de conhecimento enriquecidos por contexto e um esquema induzido, superando limitações de métodos baseados em ontologias ou esquemas livres. Ele organiza entidades e relações usando um esquema guiado por dados, mantendo a rastreabilidade e capturando relações condicionais.

29
RESEARCHarXiv CS.AI·07/04/2026

Explainable Model Routing for Agentic Workflows

Este conteúdo descreve o Topaz, um framework para roteamento auditável em fluxos de trabalho de agentes de IA. Ele visa resolver a falta de transparência na seleção de modelos, que atualmente prioriza custo e desempenho sem registrar as compensações subjacentes, utilizando perfis de habilidades e algoritmos de roteamento rastreáveis.

28
RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
RESEARCHarXiv CS.AI·07/04/2026

Contextual Control without Memory Growth in a Context-Switching Task

Este artigo propõe uma nova arquitetura recorrente baseada em intervenção para lidar com a tomada de decisões sequenciais dependentes de contexto, sem a necessidade de aumentar a dimensionalidade da memória recorrente. O método atua intervindo em um estado latente recorrente compartilhado, utilizando um operador aditivo indexado por contexto.

28
RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
RESEARCHarXiv CS.CL·07/04/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

27
RESEARCHarXiv CS.CL·07/04/2026

MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

Este artigo propõe o MultiPress, uma estrutura inovadora de múltiplos agentes em três estágios para a classificação de notícias multimodais, visando superar as limitações de métodos existentes na compreensão de dados heterogêneos como texto e imagens. A pesquisa integra agentes especializados para percepção, raciocínio aumentado por recuperação e fusão, demonstrando melhorias significativas em um novo conjunto de dados em grande escala.

27