← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·il y a 6j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

29
ARTICLEDEV.to AI·il y a 4j

<think>

Cet article explore des alternatives économiques à GPT-4o, révélant comment d'autres modèles d'IA peuvent offrir des économies significatives aux développeurs. Il propose des comparaisons de coûts directes, soulignant des options comme DeepSeek V4 Flash et Qwen3-32B.

29
DOCML Mastery·il y a 5j

Using Scikit-LLM with Open-Source LLMs

Cet article explique comment effectuer une tâche linguistique comme la classification de texte en intégrant des grands modèles de langage (LLMs) open source hébergés localement. Il montre comment utiliser Ollama et la bibliothèque Python Scikit-LLM avec des modèles comme Mistral, Gemma et Llama 3 gratuitement.

Using Scikit-LLM with Open-Source LLMs
29
RESEARCHarXiv CS.CL·08/05/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp compile le raisonnement des LLM en synthétiseurs de programmes symboliques pour surmonter l'inefficacité et le manque de fiabilité des LLM sur les tâches de synthèse de programmes difficiles. Ces solveurs autonomes surpassent les LLM en précision et en efficacité, améliorant les configurations hybrides neuro-symboliques tout en réduisant considérablement l'utilisation de jetons.

29
RESEARCHarXiv CS.LG·07/05/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

La recherche montre que l'intervention à position unique échoue à transférer les tâches dans Llama-3.2-3B malgré une grande précision de sondage, suggérant un encodage de tâche distribué. Cependant, l'intervention multi-position atteint jusqu'à 96% de transfert, localisant pour la première fois le lieu causal de l'identité de la tâche dans l'apprentissage en contexte.

29
RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

29
RESEARCHarXiv CS.LG·22/04/2026

Towards Understanding the Robustness of Sparse Autoencoders

Cette recherche explore les implications de robustesse des Sparse Autoencoders (SAEs) contre les attaques de jailbreak sur les Large Language Models (LLMs). L'intégration de SAEs pré-entraînés lors de l'inférence réduit considérablement les taux de succès des jailbreaks jusqu'à 5x et diminue la transférabilité des attaques entre diverses familles de LLMs.

29
DOCDEV.to AI·02/05/2026

🤖 The AI SaaS Playbook (Practical Edition)

Ce playbook pratique guide les développeurs dans la création de produits SaaS axés sur l'IA, détaillant les changements essentiels et les nouvelles considérations. Il couvre les modèles d'architecture, l'intégration des LLM, le développement d'agents, le contrôle des coûts, les tests, la sécurité et la multi-location, offrant des conseils exploitables pour un déploiement rapide.

29
NEWSDEV.to AI·19/04/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Les nouvelles d'aujourd'hui mettent en lumière l'intégration du "speculative checkpointing" dans llama.cpp pour accélérer l'inférence des LLM locaux et un nouvel outil multimodal Ollama pour l'analyse audio/vidéo locale. Une comparaison détaillée entre MLX et GGUF pour l'optimisation du déploiement de Gemma 4 sur du matériel grand public est également présentée.

29
ARTICLEDEV.to AI·il y a 8j

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

Alors que les entreprises adoptent les LLM, une gouvernance et une sécurité robustes de l'IA sont essentielles pour prévenir les fuites de données, les pénalités réglementaires et les atteintes à la réputation. Une approche de défense en profondeur est cruciale pour atténuer les menaces comme l'injection de prompt et la contamination des données, assurant la conformité avec des réglementations telles que le RGPD et la loi européenne sur l'IA.

29
RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

29
RESEARCHarXiv CS.CL·09/04/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

29
RESEARCHarXiv CS.LG·il y a 18j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

29
RESEARCHarXiv CS.CL·il y a 8j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

29
RESEARCHarXiv CS.CL·il y a 9j

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Cet article propose un cadre de classification thématique multi-étiquette à tir unique, étudiant systématiquement comment l'augmentation du graphe de connaissances par article affecte ses performances. Les auteurs testent huit méthodes sur quinze LLM et huit ensembles de données multi-étiquettes, concluant que la classification améliorée par mots-clés est la méthode la plus performante dans le cadre de base.

29