← heapsort-ai

Research Methods

7 items

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

27
RESEARCHarXiv CS.AI·il y a 11j

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Les agents basés sur des LLM de pointe peuvent surmonter le goulot d'étranglement de la curation d'ontologies pour les phénotypes naturels, un processus laborieux dépendant d'experts humains. Cela permettra d'améliorer considérablement la mise à l'échelle de l'annotation des descriptions de phénotypes en texte libre vers les termes d'ontologie, essentielle pour l'intégration des données morphologiques comparatives.

27
RESEARCHarXiv CS.AI·il y a 15j

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) est un cadre agentique conçu pour le raisonnement automatisé sur des problèmes mathématiques complexes de niveau recherche, se distinguant des études antérieures sur les mathématiques de compétition ou la preuve de théorèmes formels. RMA utilise des modules spécialisés et des agents coordonnés qui génèrent, affinent et vérifient collaborativement des preuves candidates à travers un flux de travail multi-rôles et multi-tours, en utilisant une mémoire structurée partagée.

27
RESEARCHarXiv CS.AI·il y a 13j

Constraint acquisition needs better benchmarks

Les benchmarks actuels pour l'Acquisition de Contraintes (CA) et les modèles de Programmation Mathématique (MP) sont inadéquats, entravant la reproductibilité et la comparabilité de la recherche. Ce travail introduit MPMMine, une nouvelle suite de benchmarks conçue pour valider et améliorer les modèles MP en utilisant divers artefacts de connaissance du domaine, favorisant la cohérence et l'ouverture.

27