LLMs

720 items

ARTICLEDEV.to AI·08/04/2026

I Built a Tool to Test Whether Multiple LLMs Working Together Can Beat a Single Model

O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.

multi-model AI avaliação de desempenho Orquestração LLMs

RESEARCHarXiv CS.AI·il y a 6j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

LLMs reinforcement learning code generation RTL Synthesis

ARTICLEDEV.to AI·11/04/2026

Why Chunking Is the Biggest Mistake in RAG Systems

Este artigo critica a técnica de 'chunking' em sistemas RAG, destacando seus problemas de perda de contexto e erros em documentos estruturados, como registros clínicos. Propõe a indexação ciente da estrutura e a sumarização como métodos mais eficazes para lidar com dados complexos.

chunking LLMs RAG Document Intelligence

ARTICLEDEV.to AI·il y a 4j

<think>

Cet article explore des alternatives économiques à GPT-4o, révélant comment d'autres modèles d'IA peuvent offrir des économies significatives aux développeurs. Il propose des comparaisons de coûts directes, soulignant des options comme DeepSeek V4 Flash et Qwen3-32B.

LLMs API Management development Cost Optimization

DOCML Mastery·il y a 5j

Using Scikit-LLM with Open-Source LLMs

Cet article explique comment effectuer une tâche linguistique comme la classification de texte en intégrant des grands modèles de langage (LLMs) open source hébergés localement. Il montre comment utiliser Ollama et la bibliothèque Python Scikit-LLM avec des modèles comme Mistral, Gemma et Llama 3 gratuitement.

open-source LLMs learning Python

RESEARCHarXiv CS.CL·08/05/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp compile le raisonnement des LLM en synthétiseurs de programmes symboliques pour surmonter l'inefficacité et le manque de fiabilité des LLM sur les tâches de synthèse de programmes difficiles. Ces solveurs autonomes surpassent les LLM en précision et en efficacité, améliorant les configurations hybrides neuro-symboliques tout en réduisant considérablement l'utilisation de jetons.

program synthesis LLMs Symbolic AI AI Efficiency

RESEARCHarXiv CS.LG·07/05/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

La recherche montre que l'intervention à position unique échoue à transférer les tâches dans Llama-3.2-3B malgré une grande précision de sondage, suggérant un encodage de tâche distribué. Cependant, l'intervention multi-position atteint jusqu'à 96% de transfert, localisant pour la première fois le lieu causal de l'identité de la tâche dans l'apprentissage en contexte.

LLMs Mechanistic Interpretability in-context learning causal importance

RESEARCHarXiv CS.AI·il y a 27j

CHAL: Council of Hierarchical Agentic Language

Le CHAL (Council of Hierarchical Agentic Language) est un nouveau cadre dialectique multi-agents proposé pour optimiser les croyances dans les domaines réfutables. Il aborde les limites actuelles du débat multi-agents pour le raisonnement des LLM, où l'argumentation réfutable est traitée comme un moteur d'optimisation des croyances.

dialectic frameworks LLMs belief optimization AI Reasoning

ARTICLEDEV.to AI·il y a 4j

The Limits of AI Models: What LLMs Still Can't Do (And Why)

Cet article explore les limites inhérentes des modèles d'IA, en particulier les LLM, soulignant l'importance de comprendre ces frontières pour le développement de produits robustes. Il détaille l'hallucination comme une limitation clé, expliquant que les LLM génèrent du texte plausible, pas nécessairement vrai, sans vérificateur de faits interne.

AI models LLMs hallucination AI limitations

RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

LLMs Computational Efficiency inference optimization

RESEARCHarXiv CS.LG·22/04/2026

Towards Understanding the Robustness of Sparse Autoencoders

Cette recherche explore les implications de robustesse des Sparse Autoencoders (SAEs) contre les attaques de jailbreak sur les Large Language Models (LLMs). L'intégration de SAEs pré-entraînés lors de l'inférence réduit considérablement les taux de succès des jailbreaks jusqu'à 5x et diminue la transférabilité des attaques entre diverses familles de LLMs.

LLMs security machine learning

DOCDEV.to AI·02/05/2026

🤖 The AI SaaS Playbook (Practical Edition)

Ce playbook pratique guide les développeurs dans la création de produits SaaS axés sur l'IA, détaillant les changements essentiels et les nouvelles considérations. Il couvre les modèles d'architecture, l'intégration des LLM, le développement d'agents, le contrôle des coûts, les tests, la sécurité et la multi-location, offrant des conseils exploitables pour un déploiement rapide.

AI architecture SaaS LLMs best practices

NEWSDEV.to AI·19/04/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Les nouvelles d'aujourd'hui mettent en lumière l'intégration du "speculative checkpointing" dans llama.cpp pour accélérer l'inférence des LLM locaux et un nouvel outil multimodal Ollama pour l'analyse audio/vidéo locale. Une comparaison détaillée entre MLX et GGUF pour l'optimisation du déploiement de Gemma 4 sur du matériel grand public est également présentée.

LLMs Ollama llama.cpp model inference

ARTICLEDEV.to AI·il y a 8j

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

Alors que les entreprises adoptent les LLM, une gouvernance et une sécurité robustes de l'IA sont essentielles pour prévenir les fuites de données, les pénalités réglementaires et les atteintes à la réputation. Une approche de défense en profondeur est cruciale pour atténuer les menaces comme l'injection de prompt et la contamination des données, assurant la conformité avec des réglementations telles que le RGPD et la loi européenne sur l'IA.

LLMs data privacy security compliance

RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

model interpretability LLMs prompt-engineering Attention Mechanisms

RESEARCHarXiv CS.CL·09/04/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

LLMs Question Answering consistency NLP

RESEARCHarXiv CS.CL·07/05/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku est un benchmark systématique évaluant les performances de traduction zero-shot de 19 LLM pour 43 langues ghanéennes. Il utilise des phrases de la Bible et des métriques telles que BLEU et chrF, gemini-2.5-flash obtenant le score moyen le plus élevé.

LLMs benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.LG·il y a 18j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·il y a 8j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

LLMs NLP inference optimization Speculative Decoding

RESEARCHarXiv CS.CL·il y a 9j

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Cet article propose un cadre de classification thématique multi-étiquette à tir unique, étudiant systématiquement comment l'augmentation du graphe de connaissances par article affecte ses performances. Les auteurs testent huit méthodes sur quinze LLM et huit ensembles de données multi-étiquettes, concluant que la classification améliorée par mots-clés est la méthode la plus performante dans le cadre de base.

Multi-label Classification LLMs Knowledge Graph Zero-Shot Topic Classification