heapsort
RESEARCH27

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

arXiv CS.AI·6 mai 2026

Cette recherche présente Terminus-4B, un petit modèle linguistique affiné, pour étudier sa capacité à remplacer les LLM de pointe dans les tâches d'exécution terminale agentique. Le modèle est post-entraîné en utilisant SFT et RL avec des récompenses basées sur une grille d'évaluation LLM-en-tant-que-juge.

Lire l'original