heapsort-ai — Notícias, Artigos e Pesquisas de IA

NEWSThe Verge AI·07/04/2026

Gemini is making it faster for distressed users to reach mental health resources

O Google atualizou o Gemini para direcionar melhor usuários em crise a recursos de saúde mental, após enfrentar um processo por morte indevida que alega que seu chatbot 'treinou' um homem para suicídio. A mudança visa agilizar o acesso a linhas de apoio durante momentos de crise.

Saúde Mental Gemini Ética na IA Segurança da IA

RESEARCHarXiv CS.AI·07/04/2026

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Este trabalho apresenta um framework automatizado para comparar documentos de política de segurança de IA usando LLMs e uma taxonomia compartilhada, avaliando a estabilidade e validade da análise.

Policy Analysis Crosswalk Framework Automated Analysis large language models

RESEARCHarXiv CS.AI·07/04/2026

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

resource-efficient models LLMs machine learning discharge prediction

RESEARCHarXiv CS.CL·07/04/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.CL·07/04/2026

VIGIL: An Extensible System for Real-Time Detection and Mitigation of Cognitive Bias Triggers

VIGIL é uma nova extensão de navegador que detecta e mitiga em tempo real gatilhos de vieses cognitivos em informações online. Desenvolvido para combater os riscos de desinformação da IA generativa, ele oferece reformulações impulsionadas por LLMs e foca na integridade do discurso cívico.

disinformation cognitive bias browser extension Generative AI

RESEARCHarXiv CS.CL·07/04/2026

The Tool Illusion: Rethinking Tool Use in Web Agents

Este estudo aprofundado reavalia o uso de ferramentas em agentes web, questionando ganhos, princípios de design e efeitos colaterais com base em pesquisas anteriores limitadas. A pesquisa propõe uma base empírica mais robusta através de um estudo extenso e controlado, visando fornecer evidências mais confiáveis para a área.

avaliação empírica agentes web uso de ferramentas IA

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data

RESEARCHarXiv CS.AI·07/04/2026

Towards the AI Historian: Agentic Information Extraction from Primary Sources

Este relatório técnico apresenta o primeiro módulo de Chronos, um Historiador de IA em desenvolvimento. Ele permite que historiadores convertam imagens digitalizadas de fontes primárias em dados através de interações em linguagem natural, adaptando e refinando fluxos de trabalho.

open-source Information Extraction Natural Language Processing AI

RESEARCHarXiv CS.AI·07/04/2026

When Do Hallucinations Arise? A Graph Perspective on the Evolution of Path Reuse and Path Compression

Este artigo explora as alucinações de raciocínio em LLMs, modelando a previsão de tokens como um processo de busca em grafo. Ele identifica dois mecanismos fundamentais para o surgimento dessas alucinações: o "Path Reuse" (reutilização de caminhos) e o "Path Compression" (compressão de caminhos).

LLMs Path Reuse Path Compression modelos de grafo

RESEARCHarXiv CS.AI·07/04/2026

ActionNex: A Virtual Outage Manager for Cloud

ActionNex é um sistema de IA agente de nível de produção projetado para gerenciar interrupções em operações de nuvem em larga escala, oferecendo assistência completa, incluindo atualizações em tempo real e recomendações de ações. Ele processa sinais operacionais multimodais, destila conhecimento em uma memória hierárquica e utiliza um agente de raciocínio para guiar a tomada de decisão.

multimodal AI Agentic AI Systems cloud computing Outage Management

RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play

RESEARCHarXiv CS.AI·07/04/2026

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Este artigo de pesquisa explora o design adaptativo de recompensas para DRL no agendamento de satélites LEO, revelando um dilema de estabilidade onde pesos de recompensa estáticos superam os dinâmicos devido à necessidade de um sinal quase estacionário para o PPO. O estudo introduz um método de sondagem causal para identificar a alavancagem de termos de recompensa específicos, descobrindo que um aumento na penalidade de switching melhora significativamente a taxa de dados.

Deep Reinforcement Learning satellite scheduling Reward Design

RESEARCHarXiv CS.CL·07/04/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·07/04/2026

Rethinking Token Prediction: Tree-Structured Diffusion Language Model

Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.

previsão de tokens árvore de vocabulário difusão discreta arquitetura de IA

RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

RESEARCHarXiv CS.CL·07/04/2026

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

Representação Cultural Avaliação de IA Estudo Humano Diversidade

RESEARCHarXiv CS.AI·07/04/2026

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Este trabalho apresenta o BioAlchemy, um pipeline que aborda o desalinhamento de tópicos em conjuntos de dados de raciocínio de biologia existentes. Ele gera o BioAlchemy-345K, um novo conjunto de dados de treinamento com mais de 345 mil problemas de raciocínio científico verificáveis para aplicação em aprendizado por reforço em pesquisa biológica.

raciocínio científico biologia Aprendizado por Reforço pesquisa em IA

RESEARCHarXiv CS.AI·07/04/2026

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

Benchmarks de IA Avaliação de IA Dados em nível de item IA Generativa

RESEARCHarXiv CS.CL·07/04/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP benchmarks Quality Assurance

RESEARCHarXiv CS.AI·07/04/2026

TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering

TABQAWORLD é um novo framework para otimizar o raciocínio multimodal em perguntas e respostas sobre tabelas multi-turn. Ele aborda erros de representação e altos custos de inferência ao empregar uma política de seleção multimodal que alterna dinamicamente entre representações visuais e textuais para maximizar a confiabilidade do estado da tabela.

AI frameworks Table Question Answering Multimodal Reasoning multi-turn