← heapsort-ai

Research Methods

7 items

RESEARCHarXiv CS.CL·5/5/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

27
RESEARCHarXiv CS.AI·vor 11T

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Fortschrittliche LLM-basierte Agenten können den Engpass bei der Ontologiekuration für natürliche Phänotypen überwinden, einen arbeitsintensiven Prozess, der von menschlichen Experten abhängt. Dies könnte die Skalierbarkeit der Annotation von Freitext-Phänotypbeschreibungen zu Ontologiebegriffen erheblich verbessern, was für die Integration vergleichender morphologischer Daten unerlässlich ist.

27
RESEARCHarXiv CS.AI·vor 15T

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) ist ein agentisches Framework, das für automatisiertes Denken bei komplexen mathematischen Problemen auf Forschungsebene entwickelt wurde und sich von früheren Studien zu Wettbewerbsmathematik oder formalem Theorembeweis unterscheidet. RMA verwendet spezialisierte Module und koordinierte Agenten, die kollaborativ Kandidatenbeweise durch einen Multi-Rollen-, Multi-Runden-Workflow generieren, verfeinern und verifizieren, indem sie einen gemeinsamen strukturierten Speicher nutzen.

27
RESEARCHarXiv CS.AI·vor 13T

Constraint acquisition needs better benchmarks

Aktuelle Benchmarks für die Beschaffung von Randbedingungen (CA) und mathematische Programmiermodelle (MP) sind unzureichend, was die Reproduzierbarkeit und Vergleichbarkeit der Forschung behindert. Diese Arbeit stellt MPMMine vor, eine neue Benchmark-Suite, die entwickelt wurde, um MP-Modelle mittels verschiedener Domänenwissensartefakte zu validieren und zu verbessern, wobei Konsistenz und Offenheit gefördert werden.

27