heapsort-ai — Notícias, Artigos e Pesquisas de IA

RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·07/04/2026

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

LLMs uncertainty quantification Evolutionary Search AI research

RESEARCHarXiv CS.CL·07/04/2026

Text Summarization With Graph Attention Networks

Este estudo explorou o uso de informações de grafos (RST e Co-referência) para sumarização de texto, descobrindo que Redes de Atenção Gráficas não melhoraram o desempenho, enquanto um Perceptron Multicamadas obteve sucesso. Adicionalmente, foi criado um novo benchmark para sumarização baseada em grafos ao anotar o dataset XSum com informações RST.

Graph Attention Networks Rhetorical Structure Theory machine learning Natural Language Processing

RESEARCHarXiv CS.AI·07/04/2026

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

Este trabalho explora a segmentabilidade do universo no Problema da Cobertura Mínima de Conjuntos (MSCP) para otimizar heurísticas. Propõe uma estratégia de pré-processamento baseada em union-find para decompor instâncias em subproblemas independentes, resolvidos com a metaheurística GRASP.

Otimização Combinatória Algoritmos IA NP-hard

RESEARCHarXiv CS.CL·07/04/2026

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMs reinforcement learning code generation program execution simulation

RESEARCHarXiv CS.AI·07/04/2026

To Throw a Stone with Six Birds: On Agents and Agenthood

A Teoria dos Seis Pássaros (SBT) aborda objetos macroscópicos como fechamentos induzidos, e não primitivos, e redefine agência nesse contexto. O artigo propõe uma operacionalização da agência em sistemas controlados, baseada em quatro componentes verificáveis, incluindo um kernel de viabilidade robusto e empoderamento factível.

Sistemas de Controle Teoria de Agência Agentes de IA Filosofia da IA

RESEARCHarXiv CS.AI·07/04/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

AI alignment Avaliação de Modelos Filosofia da IA Ética em IA

RESEARCHarXiv CS.AI·07/04/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMs ChatGPT Instrumentation Control large language models

RESEARCHarXiv CS.AI·07/04/2026

VERT: Reliable LLM Judges for Radiology Report Evaluation

O artigo propõe VERT, uma nova métrica baseada em LLM para avaliação de relatórios radiológicos. Ele compara VERT com métricas existentes em diversos modelos e datasets, analisando sua correlação com avaliações de especialistas para determinar as melhores configurações de LLM para juízes em radiologia.

Modelos de Linguagem Grandes IA Radiologia Avaliação de Modelos

RESEARCHarXiv CS.AI·07/04/2026

Hume's Representational Conditions for Causal Judgment: What Bayesian Formalization Abstracted Away

O artigo explora as condições representacionais de Hume para o juízo causal e argumenta que frameworks modernos de IA, como a epistemologia Bayesiana e modelos de linguagem grandes, abstraem essas condições. Ele demonstra como, embora preservem a estrutura de atualização, falham em satisfazer requisitos fundamentais da psicologia causal de Hume, destacando lacunas na IA atual.

Epistemologia Bayesiana Processamento Preditivo Hume Causalidade

RESEARCHarXiv CS.AI·07/04/2026

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

TRACE-KG é um framework multimodal que constrói grafos de conhecimento enriquecidos por contexto e um esquema induzido, superando limitações de métodos baseados em ontologias ou esquemas livres. Ele organiza entidades e relações usando um esquema guiado por dados, mantendo a rastreabilidade e capturando relações condicionais.

multimodal AI schema induction knowledge graphs document understanding

RESEARCHarXiv CS.AI·07/04/2026

Explainable Model Routing for Agentic Workflows

Este conteúdo descreve o Topaz, um framework para roteamento auditável em fluxos de trabalho de agentes de IA. Ele visa resolver a falta de transparência na seleção de modelos, que atualmente prioriza custo e desempenho sem registrar as compensações subjacentes, utilizando perfis de habilidades e algoritmos de roteamento rastreáveis.

model routing Agentic Workflows Explainable AI

RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context Attention Mechanisms

RESEARCHarXiv CS.AI·07/04/2026

Contextual Control without Memory Growth in a Context-Switching Task

Este artigo propõe uma nova arquitetura recorrente baseada em intervenção para lidar com a tomada de decisões sequenciais dependentes de contexto, sem a necessidade de aumentar a dimensionalidade da memória recorrente. O método atua intervindo em um estado latente recorrente compartilhado, utilizando um operador aditivo indexado por contexto.

Estados Latentes Aprendizado por Reforço Redes Recorrentes Inteligência Artificial

RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

RESEARCHarXiv CS.CL·07/04/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

Noise Steering NLP Diversity text generation Transformer Models

RESEARCHarXiv CS.CL·07/04/2026

MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

Este artigo propõe o MultiPress, uma estrutura inovadora de múltiplos agentes em três estágios para a classificação de notícias multimodais, visando superar as limitações de métodos existentes na compreensão de dados heterogêneos como texto e imagens. A pesquisa integra agentes especializados para percepção, raciocínio aumentado por recuperação e fusão, demonstrando melhorias significativas em um novo conjunto de dados em grande escala.

news classification deep learning multimodal classification multi-agent systems

RESEARCHarXiv CS.CL·07/04/2026

Towards a theory of morphology-driven marking in the lexicon: The case of the state

Este artigo explora variações na realização de substantivos em diferentes idiomas, propondo um modelo formal de marcação impulsionada pela morfologia. O modelo organiza substantivos em conjuntos cognitivos modulares para explicar diferenças de marcação e reavalia os conceitos de marcação e estado dentro das funções sintáticas.

morphology syntax noun categories lexicon

RESEARCHarXiv CS.CL·07/04/2026

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Este conteúdo explora a isolação de roteamento de linguagem em modelos MoE multilingues, visando uma adaptação de sub-rede mais interpretável.

Multilingual Models Subnetwork Adaptation MoE AI

RESEARCHarXiv CS.AI·07/04/2026

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Esta pesquisa apresenta o IC3-Evolve, um novo método para verificação formal de hardware. Ele utiliza a evolução heurística offline impulsionada por LLMs e guiada por provas/testemunhas para melhorar a eficiência do algoritmo IC3.

Heuristics formal methods large language models model checking