LLMs

720 items

ARTICLEDEV.to AI·8/4/2026

I Built a Tool to Test Whether Multiple LLMs Working Together Can Beat a Single Model

O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.

multi-model AI avaliação de desempenho Orquestração LLMs

RESEARCHarXiv CS.AI·hace 6d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

LLMs reinforcement learning code generation RTL Synthesis

ARTICLEDEV.to AI·11/4/2026

Why Chunking Is the Biggest Mistake in RAG Systems

Este artigo critica a técnica de 'chunking' em sistemas RAG, destacando seus problemas de perda de contexto e erros em documentos estruturados, como registros clínicos. Propõe a indexação ciente da estrutura e a sumarização como métodos mais eficazes para lidar com dados complexos.

chunking LLMs RAG Document Intelligence

ARTICLEDEV.to AI·hace 4d

<think>

Este artículo explora alternativas rentables a GPT-4o, mostrando cómo otros modelos de IA pueden ofrecer ahorros sustanciales para los desarrolladores. Presenta comparaciones directas de costos, destacando opciones como DeepSeek V4 Flash y Qwen3-32B.

LLMs API Management development Cost Optimization

DOCML Mastery·hace 5d

Using Scikit-LLM with Open-Source LLMs

Este artículo enseña cómo realizar una tarea de lenguaje como la clasificación de texto integrando modelos de lenguaje grandes (LLMs) de código abierto alojados localmente. Demuestra cómo lograr esto de forma gratuita utilizando Ollama y la biblioteca Python Scikit-LLM con modelos como Mistral, Gemma y Llama 3.

open-source LLMs learning Python

RESEARCHarXiv CS.CL·8/5/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp compila el razonamiento de LLMs en solucionadores simbólicos para la síntesis de programas, abordando la ineficiencia e inestabilidad de los LLMs en tareas difíciles. Estos solucionadores autónomos superan a los LLMs en precisión y eficiencia, y mejoran los entornos híbridos neuro-simbólicos, reduciendo significativamente el uso de tokens.

program synthesis LLMs Symbolic AI AI Efficiency

RESEARCHarXiv CS.LG·7/5/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

La investigación demuestra que la intervención en una sola posición no logra transferir tareas en Llama-3.2-3B, a pesar de la alta precisión de sondeo, indicando una codificación de tareas distribuida. Sin embargo, la intervención multiposición logra hasta un 96% de transferencia, identificando por primera vez el foco causal de la identidad de la tarea en el aprendizaje en contexto.

LLMs Mechanistic Interpretability in-context learning causal importance

RESEARCHarXiv CS.AI·hace 27d

CHAL: Council of Hierarchical Agentic Language

CHAL (Council of Hierarchical Agentic Language) es un nuevo marco dialéctico multiagente propuesto para optimizar creencias en dominios refutables. Aborda las limitaciones actuales del debate multiagente para el razonamiento de LLMs, donde la argumentación refutable se trata como un motor para la optimización de creencias.

dialectic frameworks LLMs belief optimization AI Reasoning

ARTICLEDEV.to AI·hace 4d

The Limits of AI Models: What LLMs Still Can't Do (And Why)

Este artículo explora las limitaciones inherentes de los modelos de IA, particularmente los LLMs, enfatizando la importancia de comprender estos límites para el desarrollo de productos robustos. Detalla la alucinación como una limitación clave, explicando que los LLMs generan texto plausible, no necesariamente verdadero, sin un verificador interno de hechos.

AI models LLMs hallucination AI limitations

RESEARCHarXiv CS.CL·22/4/2026

Two-dimensional early exit optimisation of LLM inference

Este artículo introduce una estrategia bidimensional de "early exit" para tareas de clasificación en LLMs, coordinando la salida por capa y por sentencia. El método logra ahorros computacionales multiplicativos y aceleraciones de 1.4-2.3x sobre el "early exit" por capa óptimo, aplicable a varios LLMs de última generación en tareas más simples.

LLMs Computational Efficiency inference optimization

RESEARCHarXiv CS.LG·22/4/2026

Towards Understanding the Robustness of Sparse Autoencoders

Esta investigación explora las implicaciones de robustez de los Autoencoders Escasos (SAEs) contra ataques de jailbreak en Large Language Models (LLMs). La integración de SAEs preentrenados durante la inferencia reduce significativamente las tasas de éxito de jailbreak hasta 5 veces y disminuye la transferibilidad de ataques entre diferentes familias de LLMs.

LLMs security machine learning

DOCDEV.to AI·2/5/2026

🤖 The AI SaaS Playbook (Practical Edition)

Este playbook práctico guía a los desarrolladores en la creación de productos SaaS con IA en su núcleo, detallando los cambios esenciales y nuevas consideraciones. Cubre patrones arquitectónicos, integración de LLM, desarrollo de agentes, control de costos, pruebas, seguridad y multi-tenencia, ofreciendo consejos prácticos para una implementación rápida.

AI architecture SaaS LLMs best practices

NEWSDEV.to AI·19/4/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Las noticias de hoy resaltan la fusión del "speculative checkpointing" en llama.cpp para acelerar la inferencia de LLMs locales y una nueva herramienta multimodal de Ollama para análisis local de audio/video. También se incluye una comparación detallada entre MLX y GGUF para optimizar la implementación de Gemma 4 en hardware de consumo.

LLMs Ollama llama.cpp model inference

ARTICLEDEV.to AI·hace 9d

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

A medida que las empresas adoptan LLMs, la gobernanza y seguridad de la IA son esenciales para prevenir fugas de datos, sanciones regulatorias y daños a la reputación. Es crucial adoptar un enfoque de defensa en profundidad para mitigar amenazas como la inyección de prompt y la contaminación de datos, garantizando el cumplimiento de normativas como el GDPR y la Ley de IA de la UE.

LLMs data privacy security compliance

RESEARCHarXiv CS.CL·27/4/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Esta investigación explora la sensibilidad a los prompts en LLMs, comparando los estilos de instrucción y de ejemplo. Se encuentra que, a pesar de la variación en el rendimiento, los LLMs comparten mecanismos subyacentes comunes, como los "lexical task heads" que describen la tarea y activan la producción de respuestas.

model interpretability LLMs prompt-engineering Attention Mechanisms

RESEARCHarXiv CS.CL·9/4/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

LLMs Question Answering consistency NLP

RESEARCHarXiv CS.CL·7/5/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku es un benchmark sistemático que evalúa el rendimiento de traducción zero-shot de 19 LLM en 43 idiomas ghaneses. Emplea oraciones bíblicas y métricas como BLEU y chrF, y gemini-2.5-flash obtiene la puntuación media más alta.

LLMs benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.LG·hace 18d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·hace 8d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

LLMs NLP inference optimization Speculative Decoding

RESEARCHarXiv CS.CL·hace 9d

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Este artículo presenta un marco de clasificación de temas multi-etiqueta de disparo cero, investigando sistemáticamente cómo la ampliación del grafo de conocimiento por artículo afecta su rendimiento. Los autores prueban ocho métodos en quince LLMs y ocho conjuntos de datos multi-etiqueta, encontrando que la clasificación mejorada con palabras clave es el método de mejor rendimiento en el marco base.

Multi-label Classification LLMs Knowledge Graph Zero-Shot Topic Classification