Research Methods

7 items

RESEARCHarXiv CS.AI·14/04/2026

Seven simple steps for log analysis in AI systems

Cette recherche propose un pipeline standardisé pour l'analyse des logs dans les systèmes d'IA, comblant le manque d'une approche commune. Elle offre un cadre avec des exemples de code utilisant la bibliothèque Inspect Scout, guidant les chercheurs vers une analyse rigoureuse et reproductible.

Model Evaluation Log Analysis Reproducibility AI Systems

DOCDEV.to AI·il y a 24j

Automating Your Literature Review: An AI-Powered Starter Guide

Ce guide explique comment utiliser des outils d'IA pour automatiser partiellement les revues de littérature, en se concentrant sur le criblage et l'extraction de données. Le processus insiste sur le raffinement itératif avec validation humaine pour adapter l'automatisation aux nuances de la recherche.

learning literature review AI tools Research Methods

RESEARCHarXiv CS.CL·05/05/2026

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Cet article propose une méthode basée sur la perplexité pour révéler les objectifs de réglage fin des grands modèles linguistiques, notamment ceux présentant des comportements d'"organismes modèles". Cette approche exploite la tendance des modèles à sur-généraliser, en générant et classant des complétions pour identifier les objectifs de réglage fin sans hypothèses préalables.

Finetuning Perplexity model safety Research Methods

RESEARCHarXiv CS.CL·il y a 26j

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Cet article propose d'évaluer l'équité des LLM par le comportement conversationnel in-situ plutôt que par des tests standardisés. Il introduit le cadre MAC-Fairness pour l'analyse comportementale dans le dialogue multi-agents, révélant la non-fiabilité des approches traditionnelles.

LLM fairness Research Methods multi-agent systems AI evaluation

RESEARCHarXiv CS.AI·il y a 11j

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Les agents basés sur des LLM de pointe peuvent surmonter le goulot d'étranglement de la curation d'ontologies pour les phénotypes naturels, un processus laborieux dépendant d'experts humains. Cela permettra d'améliorer considérablement la mise à l'échelle de l'annotation des descriptions de phénotypes en texte libre vers les termes d'ontologie, essentielle pour l'intégration des données morphologiques comparatives.

Phenotype Annotation NLP Research Methods LLM

RESEARCHarXiv CS.AI·il y a 15j

RMA: an Agentic System for Research-Level Mathematical Problems

Research Math Agents (RMA) est un cadre agentique conçu pour le raisonnement automatisé sur des problèmes mathématiques complexes de niveau recherche, se distinguant des études antérieures sur les mathématiques de compétition ou la preuve de théorèmes formels. RMA utilise des modules spécialisés et des agents coordonnés qui génèrent, affinent et vérifient collaborativement des preuves candidates à travers un flux de travail multi-rôles et multi-tours, en utilisant une mémoire structurée partagée.

mathematical reasoning proof verification Automated reasoning Research Methods

RESEARCHarXiv CS.AI·il y a 13j

Constraint acquisition needs better benchmarks

Les benchmarks actuels pour l'Acquisition de Contraintes (CA) et les modèles de Programmation Mathématique (MP) sont inadéquats, entravant la reproductibilité et la comparabilité de la recherche. Ce travail introduit MPMMine, une nouvelle suite de benchmarks conçue pour valider et améliorer les modèles MP en utilisant divers artefacts de connaissance du domaine, favorisant la cohérence et l'ouverture.

Model Validation Constraint Acquisition Mathematical Programming Benchmarks