RESEARCHarXiv CS.LG·24d atrás

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy MappingReinforcement Learningtransfer learninginterpretability
27
RESEARCHarXiv CS.LG·24d atrás

YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

YC Bench é um novo benchmark em tempo real para prever o desempenho inicial de startups em lotes da Y Combinator. Ele utiliza um sistema de pontuação pré-Demo Day, baseado em sinais públicos de tração e visibilidade web, permitindo a avaliação rápida de modelos de previsão de sucesso.

early stage startupsstartup performanceY CombinatorMachine Learning
27
RESEARCHarXiv CS.CL·24d atrás

Skeleton-based Coherence Modeling in Narratives

Este artigo explora a modelagem de coerência em texto utilizando redes neurais e a extração de "skeletons" para geração de narrativas. Propõe uma nova Rede de Similaridade Sentença/Skeleton (SSN) que supera técnicas de similaridade básicas, mas conclui que modelos em nível de sentença ainda são mais eficazes na avaliação textual.

neural networksnarrative generationcoherence modelingNLP
27
RESEARCHarXiv CS.CL·24d atrás

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Este artigo explora se os LLMs aproximam quantitativamente o significado social humano e se estratégias de prompting pragmático podem melhorar essa aproximação. Para isso, introduz métricas de calibração (ESR, CDS) e observa que os modelos reproduzem a estrutura qualitativa das inferências sociais humanas, mas diferem substancialmente em outros aspectos.

LLMssocial meaningPragmaticsprompting
29
RESEARCHarXiv CS.CL·24d atrás

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

language modelsUnlabeled DataKnowledge DistillationMath Reasoning
27
RESEARCHarXiv CS.CL·24d atrás

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

LLMsResearchMetalanguageNLP
27
ARTICLEarXiv CS.AI·24d atrás

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

O conteúdo fornecido está vazio, impossibilitando a criação de um resumo detalhado.

EvaluationrubricsbenchmarkingAI
0
ARTICLEarXiv CS.AI·24d atrás

I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime

O título sugere uma análise sobre como agentes de inteligência artificial podem ser explicitamente utilizados para ocultar evidências de fraude e crimes violentos. Ele levanta preocupações significativas sobre o uso malicioso da IA e suas implicações éticas e legais.

EthicsMalicious AIcensorshipcrime
26
RESEARCHarXiv CS.CL·24d atrás

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMsEvaluationFoundation ModelsSocioEval
29
RESEARCHarXiv CS.AI·24d atrás

AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models

O conteúdo principal está ausente para análise. O título refere-se a AutoVerifier, um framework agentico de verificação automatizada que emprega Modelos de Linguagem Grandes.

FrameworkLLMsAutomated Verificationagentic AI
0
RESEARCHarXiv CS.AI·24d atrás

DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models

Este conteúdo aborda um estudo sobre o sistema DeltaLogic, que investiga como pequenas alterações em premissas revelam falhas na revisão de crenças em modelos de raciocínio lógico de IA.

Belief Revisionlimitações de IAmodelos de IAMachine Learning
3
RESEARCHarXiv CS.AI·24d atrás

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

Memory ArchitecturesLLMsLLM agentsNeuro-Simbólico
27
RESEARCHarXiv CS.AI·24d atrás

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Este título descreve uma pesquisa focada na verificação e validação de sistemas autônomos confiáveis, utilizando uma abordagem neuro-simbólica integrada a agentes LLM. O objetivo é garantir a robustez e a segurança de sistemas de IA avançados.

LLM agentsautonomous systemsVerification and ValidationTrustworthy AI
27
RESEARCHarXiv CS.LG·24d atrás

Homophily-aware Supervised Contrastive Counterfactual Augmented Fair Graph Neural Network

Este trabalho propõe um novo modelo para treinar Redes Neurais Gráficas (GNNs) sensíveis à justiça, aprimorando o framework CAF. A abordagem utiliza uma estratégia de treinamento em duas fases, editando o grafo para ajustar a homofilia e integrando perdas contrastivas e ambientais modificadas para melhorar a predição e a justiça.

HomophilyContrastive LearningGraph Neural NetworksMachine Learning
27
RESEARCHarXiv CS.LG·24d atrás

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

generalizationContextual IntelligenceReinforcement LearningTaxonomy
27
RESEARCHarXiv CS.LG·24d atrás

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compressionLLMsarithmetic codingcompute frontier
27
RESEARCHarXiv CS.CL·24d atrás

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

CIPHER é um modelo baseado em Conformer para inferência de fonemas a partir de EEG de alta densidade, visando decodificar informações de fala do cérebro. Embora alcance alta performance em tarefas binárias, mostra desempenho limitado na discriminação de fonemas de 11 classes, sendo posicionado como um estudo de benchmark e comparação de características.

deep learningspeech decodingBrain-Computer InterfaceMachine Learning
27
RESEARCHarXiv CS.CL·24d atrás

PolyJarvis: LLM Agent for Autonomous Polymer MD Simulations

PolyJarvis é um agente LLM que automatiza simulações de dinâmica molecular de polímeros para prever propriedades a partir de linguagem natural, utilizando a plataforma RadonPy. O sistema executa tarefas desde a construção do monômero até o cálculo de propriedades, mostrando previsões precisas de densidade e módulos de elasticidade para polímeros como aPS e PMMA.

Autonomous SimulationLLM AgentMolecular DynamicsPolymer Science
29
RESEARCHarXiv CS.CL·24d atrás

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-trainingmodel evaluationPre-training Dynamicslarge language models
27
RESEARCHarXiv CS.LG·24d atrás

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

UI-Oceanus é uma estrutura que escala agentes GUI generalistas, focando em dominar a física da interação através de feedback ambiental em vez de imitar trajetórias. O sistema utiliza exploração autônoma e predição de dinâmicas futuras para construir um modelo de mundo interno robusto, superando limitações de dados e supervisão.

Self-Supervised LearningGenerative Modelsworld modelscaling
27
←1…307308309310311…317→
Sobre·[email protected]
NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%
⌘K