← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·hace 6d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

29
ARTICLEDEV.to AI·hace 4d

<think>

Este artículo explora alternativas rentables a GPT-4o, mostrando cómo otros modelos de IA pueden ofrecer ahorros sustanciales para los desarrolladores. Presenta comparaciones directas de costos, destacando opciones como DeepSeek V4 Flash y Qwen3-32B.

29
DOCML Mastery·hace 5d

Using Scikit-LLM with Open-Source LLMs

Este artículo enseña cómo realizar una tarea de lenguaje como la clasificación de texto integrando modelos de lenguaje grandes (LLMs) de código abierto alojados localmente. Demuestra cómo lograr esto de forma gratuita utilizando Ollama y la biblioteca Python Scikit-LLM con modelos como Mistral, Gemma y Llama 3.

Using Scikit-LLM with Open-Source LLMs
29
RESEARCHarXiv CS.CL·8/5/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp compila el razonamiento de LLMs en solucionadores simbólicos para la síntesis de programas, abordando la ineficiencia e inestabilidad de los LLMs en tareas difíciles. Estos solucionadores autónomos superan a los LLMs en precisión y eficiencia, y mejoran los entornos híbridos neuro-simbólicos, reduciendo significativamente el uso de tokens.

29
RESEARCHarXiv CS.LG·7/5/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

La investigación demuestra que la intervención en una sola posición no logra transferir tareas en Llama-3.2-3B, a pesar de la alta precisión de sondeo, indicando una codificación de tareas distribuida. Sin embargo, la intervención multiposición logra hasta un 96% de transferencia, identificando por primera vez el foco causal de la identidad de la tarea en el aprendizaje en contexto.

29
RESEARCHarXiv CS.LG·22/4/2026

Towards Understanding the Robustness of Sparse Autoencoders

Esta investigación explora las implicaciones de robustez de los Autoencoders Escasos (SAEs) contra ataques de jailbreak en Large Language Models (LLMs). La integración de SAEs preentrenados durante la inferencia reduce significativamente las tasas de éxito de jailbreak hasta 5 veces y disminuye la transferibilidad de ataques entre diferentes familias de LLMs.

29
DOCDEV.to AI·2/5/2026

🤖 The AI SaaS Playbook (Practical Edition)

Este playbook práctico guía a los desarrolladores en la creación de productos SaaS con IA en su núcleo, detallando los cambios esenciales y nuevas consideraciones. Cubre patrones arquitectónicos, integración de LLM, desarrollo de agentes, control de costos, pruebas, seguridad y multi-tenencia, ofreciendo consejos prácticos para una implementación rápida.

29
ARTICLEDEV.to AI·hace 9d

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

A medida que las empresas adoptan LLMs, la gobernanza y seguridad de la IA son esenciales para prevenir fugas de datos, sanciones regulatorias y daños a la reputación. Es crucial adoptar un enfoque de defensa en profundidad para mitigar amenazas como la inyección de prompt y la contaminación de datos, garantizando el cumplimiento de normativas como el GDPR y la Ley de IA de la UE.

29
RESEARCHarXiv CS.CL·9/4/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

29
RESEARCHarXiv CS.LG·hace 18d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

29
RESEARCHarXiv CS.CL·hace 8d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

29
RESEARCHarXiv CS.CL·hace 9d

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Este artículo presenta un marco de clasificación de temas multi-etiqueta de disparo cero, investigando sistemáticamente cómo la ampliación del grafo de conocimiento por artículo afecta su rendimiento. Los autores prueban ocho métodos en quince LLMs y ocho conjuntos de datos multi-etiqueta, encontrando que la clasificación mejorada con palabras clave es el método de mejor rendimiento en el marco base.

29