Research Methods

7 items

RESEARCHarXiv CS.AI·4/14/2026

Seven simple steps for log analysis in AI systems

Diese Forschung schlägt eine standardisierte Pipeline für die Log-Analyse in KI-Systemen vor, um dem derzeitigen Mangel an einem gemeinsamen Ansatz zu begegnen. Sie bietet ein Framework mit konkreten Code-Beispielen unter Verwendung der Inspect Scout-Bibliothek, das Forschende durch Schritte für eine rigorose und reproduzierbare Analyse führt.

Model Evaluation Log Analysis Reproducibility AI Systems

DOCDEV.to AI·vor 24T

Automating Your Literature Review: An AI-Powered Starter Guide

Dieser Leitfaden beschreibt, wie KI-Tools zur teilweisen Automatisierung von Literaturrecherchen eingesetzt werden können, mit Fokus auf Screening und Datenextraktion. Der Prozess betont die iterative Verfeinerung mit menschlicher Validierung, um die Automatisierung an Forschungsschattierungen anzupassen.

learning literature review AI tools Research Methods

RESEARCHarXiv CS.CL·5/5/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Dieses Papier stellt eine perplexitätsbasierte Methode vor, um Feinabstimmungsziele von großen Sprachmodellen, insbesondere von "Modellorganismen", aufzudecken. Diese Methode nutzt die Tendenz der Modelle zur Übergeneralisierung, indem sie Vervollständigungen generiert und bewertet, um die Feinabstimmungsziele ohne vorherige Annahmen zu identifizieren.

Finetuning Perplexity model safety Research Methods

RESEARCHarXiv CS.CL·vor 26T

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Dieser Artikel schlägt vor, die Fairness von LLMs durch In-situ-Konversationsverhalten anstelle von standardisierten Tests zu bewerten. Er stellt das MAC-Fairness-Framework für die Verhaltensanalyse im Multi-Agenten-Dialog vor und zeigt die Unzuverlässigkeit traditioneller Ansätze auf.

LLM fairness Research Methods multi-agent systems AI evaluation

RESEARCHarXiv CS.AI·vor 11T

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Fortschrittliche LLM-basierte Agenten können den Engpass bei der Ontologiekuration für natürliche Phänotypen überwinden, einen arbeitsintensiven Prozess, der von menschlichen Experten abhängt. Dies könnte die Skalierbarkeit der Annotation von Freitext-Phänotypbeschreibungen zu Ontologiebegriffen erheblich verbessern, was für die Integration vergleichender morphologischer Daten unerlässlich ist.

Phenotype Annotation NLP Research Methods LLM

RESEARCHarXiv CS.AI·vor 15T

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) ist ein agentisches Framework, das für automatisiertes Denken bei komplexen mathematischen Problemen auf Forschungsebene entwickelt wurde und sich von früheren Studien zu Wettbewerbsmathematik oder formalem Theorembeweis unterscheidet. RMA verwendet spezialisierte Module und koordinierte Agenten, die kollaborativ Kandidatenbeweise durch einen Multi-Rollen-, Multi-Runden-Workflow generieren, verfeinern und verifizieren, indem sie einen gemeinsamen strukturierten Speicher nutzen.

mathematical reasoning proof verification Automated reasoning Research Methods

RESEARCHarXiv CS.AI·vor 13T

Constraint acquisition needs better benchmarks

Aktuelle Benchmarks für die Beschaffung von Randbedingungen (CA) und mathematische Programmiermodelle (MP) sind unzureichend, was die Reproduzierbarkeit und Vergleichbarkeit der Forschung behindert. Diese Arbeit stellt MPMMine vor, eine neue Benchmark-Suite, die entwickelt wurde, um MP-Modelle mittels verschiedener Domänenwissensartefakte zu validieren und zu verbessern, wobei Konsistenz und Offenheit gefördert werden.

Model Validation Constraint Acquisition Mathematical Programming Benchmarks