notch — curadoria de IA

NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%

⌘K

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

resource-efficient modelsLLMsMachine Learningdischarge prediction

RESEARCHarXiv CS.CL·23d atrás

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit settingneural networksFocus methodPerplexity

RESEARCHarXiv CS.CL·23d atrás

VIGIL: An Extensible System for Real-Time Detection and Mitigation of Cognitive Bias Triggers

VIGIL é uma nova extensão de navegador que detecta e mitiga em tempo real gatilhos de vieses cognitivos em informações online. Desenvolvido para combater os riscos de desinformação da IA generativa, ele oferece reformulações impulsionadas por LLMs e foca na integridade do discurso cívico.

disinformationcognitive biasbrowser extensionGenerative AI

RESEARCHarXiv CS.CL·23d atrás

The Tool Illusion: Rethinking Tool Use in Web Agents

Este estudo aprofundado reavalia o uso de ferramentas em agentes web, questionando ganhos, princípios de design e efeitos colaterais com base em pesquisas anteriores limitadas. A pesquisa propõe uma base empírica mais robusta através de um estudo extenso e controlado, visando fornecer evidências mais confiáveis para a área.

avaliação empíricaagentes webuso de ferramentasIA

RESEARCHarXiv CS.CL·23d atrás

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretabilityMultilingual ModelsLLMsMonolingual Data

arXiv CS.AI·23d atrás

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

RESEARCHarXiv CS.AI·23d atrás

Towards the AI Historian: Agentic Information Extraction from Primary Sources

Este relatório técnico apresenta o primeiro módulo de Chronos, um Historiador de IA em desenvolvimento. Ele permite que historiadores convertam imagens digitalizadas de fontes primárias em dados através de interações em linguagem natural, adaptando e refinando fluxos de trabalho.

open-sourceinformation extractionNatural Language ProcessingAI

RESEARCHarXiv CS.AI·23d atrás

When Do Hallucinations Arise? A Graph Perspective on the Evolution of Path Reuse and Path Compression

Este artigo explora as alucinações de raciocínio em LLMs, modelando a previsão de tokens como um processo de busca em grafo. Ele identifica dois mecanismos fundamentais para o surgimento dessas alucinações: o "Path Reuse" (reutilização de caminhos) e o "Path Compression" (compressão de caminhos).

LLMsPath ReusePath Compressionmodelos de grafo

RESEARCHarXiv CS.AI·23d atrás

ActionNex: A Virtual Outage Manager for Cloud

ActionNex é um sistema de IA agente de nível de produção projetado para gerenciar interrupções em operações de nuvem em larga escala, oferecendo assistência completa, incluindo atualizações em tempo real e recomendações de ações. Ele processa sinais operacionais multimodais, destila conhecimento em uma memória hierárquica e utiliza um agente de raciocínio para guiar a tomada de decisão.

multimodal AIAgentic AI Systemscloud-computingOutage Management

RESEARCHarXiv CS.CL·23d atrás

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoningDiversityCo-evolutionself-play

RESEARCHarXiv CS.AI·23d atrás

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Este artigo de pesquisa explora o design adaptativo de recompensas para DRL no agendamento de satélites LEO, revelando um dilema de estabilidade onde pesos de recompensa estáticos superam os dinâmicos devido à necessidade de um sinal quase estacionário para o PPO. O estudo introduz um método de sondagem causal para identificar a alavancagem de termos de recompensa específicos, descobrindo que um aumento na penalidade de switching melhora significativamente a taxa de dados.

Deep Reinforcement Learningsatellite schedulingReward Design

RESEARCHarXiv CS.CL·23d atrás

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMsCreative Problem SolvingbenchmarksCognitive Abilities

RESEARCHarXiv CS.CL·23d atrás

Rethinking Token Prediction: Tree-Structured Diffusion Language Model

Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.

previsão de tokensárvore de vocabuláriodifusão discretaarquitetura de IA

RESEARCHarXiv CS.AI·23d atrás

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer ArchitectureInference Dynamicsenergy-based modelsPre-commitment Signals

RESEARCHarXiv CS.CL·23d atrás

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

Representação CulturalAvaliação de IAEstudo HumanoDiversidade

RESEARCHarXiv CS.AI·23d atrás

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Este trabalho apresenta o BioAlchemy, um pipeline que aborda o desalinhamento de tópicos em conjuntos de dados de raciocínio de biologia existentes. Ele gera o BioAlchemy-345K, um novo conjunto de dados de treinamento com mais de 345 mil problemas de raciocínio científico verificáveis para aplicação em aprendizado por reforço em pesquisa biológica.

raciocínio científicobiologiaAprendizado por Reforçopesquisa em IA

RESEARCHarXiv CS.AI·23d atrás

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

Benchmarks de IAAvaliação de IADados em nível de itemIA Generativa

RESEARCHarXiv CS.CL·23d atrás

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLMNLPbenchmarksquality assurance

RESEARCHarXiv CS.AI·23d atrás

TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering

TABQAWORLD é um novo framework para otimizar o raciocínio multimodal em perguntas e respostas sobre tabelas multi-turn. Ele aborda erros de representação e altos custos de inferência ao empregar uma política de seleção multimodal que alterna dinamicamente entre representações visuais e textuais para maximizar a confiabilidade do estado da tabela.

AI frameworksTable Question AnsweringMultimodal Reasoningmulti-turn