ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling
Lorsque les modèles de langage utilisent l'échantillonnage en temps de test et le vote majoritaire, les trajectoires de raisonnement se concentrent en
Lorsque les modèles de langage utilisent l'échantillonnage en temps de test et le vote majoritaire, les trajectoires de raisonnement se concentrent en
Cette recherche aborde l'écart Stabilité-Expressivité dans les Modèles de Langage Parlé (SLM) pour les langues à faibles ressources, causé par l'utilisation intensive de données synthétiques. Bien que les données synthétiques améliorent la précision phonétique, elles dégradent l'expressivité prosodique, un phénomène appelé Érosion Synthétique. L'article introduit des cadres d'auto-alignement pour récupérer l'expressivité.
Cette recherche se concentre sur le développement de méthodes plus efficaces pour l'échantillonnage à partir de modèles probabilistes de diffusion, visant à réduire le coût computationnel et le temps associés à la génération d'échantillons de haute qualité. Elle explore de nouveaux algorithmes pour accélérer le processus d'échantillonnage tout en maintenant la fidélité des données générées.
Ce contenu explore l'analogie d'Andrej Karpathy sur les
Tian AI est doté d'un moteur d'auto-évolution qui analyse et modifie son propre code Python en fonction de l'expérience opérationnelle. Ce système innovant vise à atteindre le « saint Graal » de la recherche en IA en permettant à l'intelligence artificielle de s'améliorer continuellement.
Ce travail explore des méthodes permettant aux modèles neuronaux d'apprendre des relations de cause à effet, même lorsque les interventions générant les données sont inconnues. La recherche vise à améliorer la capacité de l'intelligence artificielle à inférer la causalité à partir de données complexes.
Este estudo argumenta, com base na Desigualdade de Processamento de Dados, que LLMs de agente único são mais eficientes em termos de informação do que sistemas multiagente sob orçamentos de token de raciocínio iguais. A pesquisa testa empiricamente esta previsão, que sugere que sistemas multiagente se tornam competitivos quando a utilização de contexto de um único agente é degradada ou mais poder computacional é despendido.
Cette étude propose une vue agnostique de l'optimiseur des stratégies de déploiement (rollout) pour le post-entraînement des LLM de raisonnement basés sur le RL. Elle formalise les pipelines de déploiement avec une notation unifiée et introduit la taxonomie du cycle de vie Generate-Filter-Control-Replay (GFCR), décomposant les pipelines en quatre étapes modulaires.
Les ingénieurs et chercheurs de NVIDIA s'appuient sur Codex avec GPT-5.5 pour construire des systèmes de production. Ils utilisent également ces outils pour transformer les idées de recherche en expériences exécutables.
Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.
Ce travail présente GELATO, une nouvelle approche pour les modèles d'embedding multimodaux qui étend les architectures de type VLM. Il en résulte la suite jina-embeddings-v5-omni, qui encode efficacement texte, image, audio et vidéo dans un espace d'embedding sémantique unique en gelant les modèles de texte principaux et en entraînant uniquement les composants de connexion.
Cet article présente OSCToM, une approche pour modéliser les conflits de croyances imbriqués dans les tâches de Théorie de l'Esprit basées sur les LLM. Il combine l'apprentissage par renforcement et des modèles de substitution pour générer ces conflits, OSCToM-8B obtenant les meilleurs résultats lors des expériences.
Cet article présente de nouvelles approches pour créer des embeddings de haute qualité pour les énoncés logiques, essentiels pour l'entraînement des réseaux neuronaux à classer efficacement les choix des raisonneurs logiques. Ces méthodes impliquent la génération d'ancres avec des termes répétés, l'équilibrage des exemples faciles, moyens et difficiles pour l'entraînement par triplet loss, et l'accentuation périodique des exemples les plus difficiles.
Cette recherche propose un cadre modulaire pour aborder le raisonnement d'incertitude évolutif dans les graphes de connaissances, où les données du monde réel contiennent souvent une incertitude inhérente. Elle traite trois niveaux d'incertitude — valeurs d'attributs imprécises, existence de triples probabilistes et connaissance de schéma incomplète — par des techniques sur mesure comme les littéraux probabilistes, les circuits probabilistes et les embeddings géométriques.
AgentCo-op est un cadre de synthèse basé sur la récupération qui compose des flux de travail multi-agents interopérables à partir de compétences, d'outils et d'agents externes. Il applique une réparation locale auto-guidée aux composants impliqués en cas d'échec d'exécution et a été démontré dans des études de cas en génomique pour coordonner des agents spécialisés.
Ce contenu explore l'évolution des méthodologies d'IA, discutant du déclin des approches de mise à l'échelle traditionnelles et de l'émergence de nouvelles stratégies, illustrées par la naissance d'Adaption Labs. Présenté par Sara Hooker, l'épisode du HF ML Club India aborde des changements significatifs dans le domaine de l'intelligence artificielle.

LangChain Labs est un nouvel effort de recherche appliquée axé sur l'apprentissage continu pour les agents. Il vise, avec des partenaires, à faire progresser la recherche ouverte sur les systèmes d'IA auto-améliorants.

Cet article décrit les résultats de 500 expériences sur la mémoire des agents d'IA, indiquant que le défi principal n'est pas le rappel mais plutôt le problème de liaison (binding). La recherche suggère qu'améliorer la manière dont les agents d'IA connectent des informations disparates est crucial pour faire progresser leurs capacités cognitives.
Ce contenu explore le concept de l'autorecherche multi-agents, détaillant comment plusieurs agents d'IA peuvent collaborer pour mener des tâches de recherche. Il se concentre spécifiquement sur l'exploitation de modèles open source pour faciliter et améliorer ces processus de recherche automatisés.

Ce contenu du Hugging Face Journal Club aborde une méthode d'auto-distillation "incroyablement simple" qui améliore significativement la génération de code. Il souligne les avancées dans l'exploitation des grands modèles de langage pour les tâches de programmation.
