notch

early stage startupsstartup performanceY CombinatorMachine Learning

YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

YC Bench é um novo benchmark em tempo real para prever o desempenho inicial de startups em lotes da Y Combinator. Ele utiliza um sistema de pontuação pré-Demo Day, baseado em sinais públicos de tração e visibilidade web, permitindo a avaliação rápida de modelos de previsão de sucesso.

neural networksnarrative generationcoherence modelingNLP

Skeleton-based Coherence Modeling in Narratives

Este artigo explora a modelagem de coerência em texto utilizando redes neurais e a extração de "skeletons" para geração de narrativas. Propõe uma nova Rede de Similaridade Sentença/Skeleton (SSN) que supera técnicas de similaridade básicas, mas conclui que modelos em nível de sentença ainda são mais eficazes na avaliação textual.

LLMssocial meaningPragmaticsprompting

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Este artigo explora se os LLMs aproximam quantitativamente o significado social humano e se estratégias de prompting pragmático podem melhorar essa aproximação. Para isso, introduz métricas de calibração (ESR, CDS) e observa que os modelos reproduzem a estrutura qualitativa das inferências sociais humanas, mas diferem substancialmente em outros aspectos.

language modelsUnlabeled DataKnowledge DistillationMath Reasoning

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

LLMsResearchMetalanguageNLP

Speaking of Language: Reflections on Metalanguage Research in NLP

Este trabalho define metalinguagem e explora sua conexão com PNL e LLMs, discutindo esforços de pesquisa e dimensões de tarefas metalinguísticas. Propõe ainda uma lista de futuras direções de pesquisa pouco estudadas.

ARTICLEarXiv CS.AI·24d atrás

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

O conteúdo fornecido está vazio, impossibilitando a criação de um resumo detalhado.

EvaluationrubricsbenchmarkingAI

ARTICLEarXiv CS.AI·24d atrás

I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime

O título sugere uma análise sobre como agentes de inteligência artificial podem ser explicitamente utilizados para ocultar evidências de fraude e crimes violentos. Ele levanta preocupações significativas sobre o uso malicioso da IA e suas implicações éticas e legais.

EthicsMalicious AIcensorshipcrime

LLMsEvaluationFoundation ModelsSocioEval

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

FrameworkLLMsAutomated Verificationagentic AI

AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models

O conteúdo principal está ausente para análise. O título refere-se a AutoVerifier, um framework agentico de verificação automatizada que emprega Modelos de Linguagem Grandes.

Belief Revisionlimitações de IAmodelos de IAMachine Learning

DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models

Este conteúdo aborda um estudo sobre o sistema DeltaLogic, que investiga como pequenas alterações em premissas revelam falhas na revisão de crenças em modelos de raciocínio lógico de IA.

Memory ArchitecturesLLMsLLM agentsNeuro-Simbólico

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

LLM agentsautonomous systemsVerification and ValidationTrustworthy AI

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Este título descreve uma pesquisa focada na verificação e validação de sistemas autônomos confiáveis, utilizando uma abordagem neuro-simbólica integrada a agentes LLM. O objetivo é garantir a robustez e a segurança de sistemas de IA avançados.

HomophilyContrastive LearningGraph Neural NetworksMachine Learning

Homophily-aware Supervised Contrastive Counterfactual Augmented Fair Graph Neural Network

Este trabalho propõe um novo modelo para treinar Redes Neurais Gráficas (GNNs) sensíveis à justiça, aprimorando o framework CAF. A abordagem utiliza uma estratégia de treinamento em duas fases, editando o grafo para ajustar a homofilia e integrando perdas contrastivas e ambientais modificadas para melhorar a predição e a justiça.

generalizationContextual IntelligenceReinforcement LearningTaxonomy

Contextual Intelligence The Next Leap for Reinforcement Learning

O texto aborda as limitações de generalização do Reinforcement Learning (RL), onde políticas aprendidas falham fora da distribuição de treinamento. Propõe uma nova taxonomia de contextos (alógenos e autógenos) e identifica direções de pesquisa cruciais para desenvolver uma verdadeira inteligência contextual.

lossy compressionLLMsarithmetic codingcompute frontier

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

deep learningspeech decodingBrain-Computer InterfaceMachine Learning

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

CIPHER é um modelo baseado em Conformer para inferência de fonemas a partir de EEG de alta densidade, visando decodificar informações de fala do cérebro. Embora alcance alta performance em tarefas binárias, mostra desempenho limitado na discriminação de fonemas de 11 classes, sendo posicionado como um estudo de benchmark e comparação de características.

Autonomous SimulationLLM AgentMolecular DynamicsPolymer Science

PolyJarvis: LLM Agent for Autonomous Polymer MD Simulations

PolyJarvis é um agente LLM que automatiza simulações de dinâmica molecular de polímeros para prever propriedades a partir de linguagem natural, utilizando a plataforma RadonPy. O sistema executa tarefas desde a construção do monômero até o cálculo de propriedades, mostrando previsões precisas de densidade e módulos de elasticidade para polímeros como aPS e PMMA.

Long-Context Continual Pre-trainingmodel evaluationPre-training Dynamicslarge language models

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.