heapsort-ai — Notícias, Artigos e Pesquisas de IA

RESEARCHarXiv CS.AI·07/04/2026

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

27
RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27
RESEARCHarXiv CS.AI·07/04/2026

ActionNex: A Virtual Outage Manager for Cloud

ActionNex é um sistema de IA agente de nível de produção projetado para gerenciar interrupções em operações de nuvem em larga escala, oferecendo assistência completa, incluindo atualizações em tempo real e recomendações de ações. Ele processa sinais operacionais multimodais, destila conhecimento em uma memória hierárquica e utiliza um agente de raciocínio para guiar a tomada de decisão.

29
RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.AI·07/04/2026

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Este artigo de pesquisa explora o design adaptativo de recompensas para DRL no agendamento de satélites LEO, revelando um dilema de estabilidade onde pesos de recompensa estáticos superam os dinâmicos devido à necessidade de um sinal quase estacionário para o PPO. O estudo introduz um método de sondagem causal para identificar a alavancagem de termos de recompensa específicos, descobrindo que um aumento na penalidade de switching melhora significativamente a taxa de dados.

27
RESEARCHarXiv CS.CL·07/04/2026

Rethinking Token Prediction: Tree-Structured Diffusion Language Model

Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.

27
RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27
RESEARCHarXiv CS.CL·07/04/2026

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

27
RESEARCHarXiv CS.AI·07/04/2026

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Este trabalho apresenta o BioAlchemy, um pipeline que aborda o desalinhamento de tópicos em conjuntos de dados de raciocínio de biologia existentes. Ele gera o BioAlchemy-345K, um novo conjunto de dados de treinamento com mais de 345 mil problemas de raciocínio científico verificáveis para aplicação em aprendizado por reforço em pesquisa biológica.

27
RESEARCHarXiv CS.AI·07/04/2026

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

27
RESEARCHarXiv CS.AI·07/04/2026

TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering

TABQAWORLD é um novo framework para otimizar o raciocínio multimodal em perguntas e respostas sobre tabelas multi-turn. Ele aborda erros de representação e altos custos de inferência ao empregar uma política de seleção multimodal que alterna dinamicamente entre representações visuais e textuais para maximizar a confiabilidade do estado da tabela.

27