← heapsort-ai

large language models

265 items

RESEARCHDEV.to AI·26/04/2026

AI 法律科技 2026 上半年中国市场扫描

Le marché chinois des technologies juridiques alimentées par l'IA connaît une expansion rapide au premier semestre 2026, atteignant 4,8 milliards de RMB avec une croissance de 78 %, propulsé par les grands modèles d'IA et les politiques réglementaires. Les segments clés sont l'examen des contrats, la recherche juridique et la génération d'actes d'accusation, les LLM domestiques atteignant une grande précision.

27
ARTICLEDEV.to AI·19/04/2026

The Personal Small Model (PSM): Memory as a Learned Cognitive Primitive

Ce contenu critique l'hypothèse actuelle selon laquelle la mémoire des systèmes d'IA est un problème de stockage, proposant une architecture alternative inspirée de la spécialisation de la mémoire humaine. Il présente le Personal Small Model (PSM), un petit modèle entraîné à maîtriser les opérations de mémoire, telles que le filtrage de pertinence.

27
DOCDEV.to AI·24/04/2026

How to implement Claude conversation history without storing everything (token-efficient pattern)

Ce contenu aborde une erreur courante dans le développement d'applications basées sur Claude : l'envoi de l'historique complet des conversations à chaque requête, entraînant des coûts de jetons élevés. Il propose un modèle efficace en termes de jetons pour gérer l'historique des conversations, garantissant la fonctionnalité tout en maîtrisant les dépenses de l'API.

27
RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

27
RESEARCHarXiv CS.CL·15/04/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Cette recherche examine systématiquement l'Effet de la Victime Identifiable (EVI) dans les grands modèles linguistiques, un biais cognitif où les victimes décrites narrativement reçoivent plus de ressources que les groupes statistiques. L'étude empirique à grande échelle sur 16 LLM de pointe évalue si ces systèmes héritent des irrationalités affectives humaines dans des applications critiques comme le triage humanitaire et la modération de contenu.

27
RESEARCHarXiv CS.LG·15/04/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Cet article détaille une tentative de distiller des dispositions comportementales dans de petits modèles de langage (0.6B-2.3B paramètres) via un pipeline de distillation. Les gains initiaux rapportés ont été falsifiés en raison d'artefacts d'évaluation, aboutissant à un résultat négatif pour l'hypothèse principale et menant à trois arcs d'investigation ultérieurs.

27
RESEARCHarXiv CS.LG·15/04/2026

A Layer-wise Analysis of Supervised Fine-Tuning

Cette recherche analyse le Supervised Fine-Tuning (SFT), révélant que les capacités de suivi des instructions émergent distinctement à travers les couches : les couches intermédiaires sont stables tandis que les couches finales sont très sensibles. S'appuyant sur cette observation, les auteurs proposent le Mid-Block Efficient Tuning, qui met à jour les couches intermédiaires critiques, surpassant le LoRA standard avec une surcharge de paramètres réduite.

27
RESEARCHarXiv CS.AI·25/04/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Ce travail présente un cadre innovant pour l'allocation adaptative de calcul au moment des tests, ajustant conjointement où la computation est dépensée et comment la génération est effectuée. La méthode utilise une phase d'échauffement pour identifier les requêtes faciles, puis concentre le calcul supplémentaire sur les requêtes non résolues, en remodelant les distributions de génération avec des démonstrations en contexte évolutives.

27
RESEARCHarXiv CS.AI·13/04/2026

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Cette recherche étudie l'utilisation d'un cadre de rétroaction de modèle linguistique agentique pour générer des domaines de planification de haute qualité à partir de descriptions en langage naturel augmentées. Elle évalue l'impact de divers mécanismes de rétroaction symbolique, tels que les jalons et la validation de plan, combinés à une recherche heuristique pour optimiser la qualité du domaine.

27
RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Pour résoudre la susceptibilité des LLM aux échecs dus à de petits changements dans les invites, notamment pour le raisonnement en plusieurs étapes, des chercheurs proposent l'Optimisation de Tokens Robuste Distributionnellement (DRTO). Cette approche combine l'apprentissage par renforcement à partir du feedback humain (RLHF) au niveau du token avec l'optimisation robuste distributionnellement (DRO) pour améliorer la cohérence sous les changements de distribution, montrant des améliorations sur les benchmarks de raisonnement mathématique.

27
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Cet article présente le Length Value Model (LenVM), un nouveau cadre au niveau du token pour modéliser la longueur de génération restante dans les modèles autorégressifs. En formulant la modélisation de la longueur comme un problème d'estimation de valeur, LenVM fournit un signal efficace, sans annotation et évolutif pour les LLM et VLM, améliorant les performances sur les tâches de correspondance exacte de longueur.

27
RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

27
RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27