← heapsort-ai

Research Methods

7 items

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Este artigo apresenta um método baseado em perplexidade para revelar os objetivos de ajuste fino de grandes modelos de linguagem, especialmente aqueles que exibem comportamentos de "organismos modelo". O método explora a tendência dos modelos de supergeneralizar, gerando e classificando conclusões para identificar os objetivos de ajuste fino sem premissas prévias.

27
RESEARCHarXiv CS.AI·11d atrás

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Agentes baseados em LLMs de fronteira podem superar o gargalo da curadoria de ontologias para fenótipos naturais, um processo que depende fortemente de especialistas humanos. Isso pode aumentar significativamente a escalabilidade da anotação de descrições fenotípicas de texto livre, essencial para a integração de dados morfológicos comparativos.

27
RESEARCHarXiv CS.AI·15d atrás

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) é uma estrutura agêntica desenvolvida para raciocínio automatizado em problemas matemáticos complexos de nível de pesquisa, diferenciando-se de trabalhos anteriores em matemática competitiva ou prova de teoremas formais. RMA utiliza módulos especializados e agentes coordenados que colaboram na geração, refinamento e verificação de provas candidatas através de um fluxo de trabalho multi-função e multi-rodada, usando uma memória estruturada compartilhada.

27
RESEARCHarXiv CS.AI·13d atrás

Constraint acquisition needs better benchmarks

Os benchmarks atuais para aquisição de restrições (CA) e modelos de programação matemática (MP) são inadequados, dificultando a reprodutibilidade e comparabilidade da pesquisa. Este trabalho apresenta o MPMMine, uma nova suíte de benchmarks projetada para validar e aprimorar modelos MP usando diversos artefatos de conhecimento de domínio, promovendo consistência e abertura.

27