large language models

262 items

NEWSDEV.to AI·hace 7d

Claude Opus 4.8: Dynamic Workflows and Parallel Subagents

Anthropic lanzó Claude Opus 4.8, que introduce flujos de trabajo dinámicos que permiten cientos de subagentes paralelos para tareas complejas. Esta versión muestra mejoras significativas en los benchmarks como SWE-bench Verified y USAMO, con precios estándar sin cambios y un nuevo modo rápido más asequible.

AI models Anthropic Benchmarks large language models

DOCDEV.to AI·24/4/2026

How to implement Claude conversation history without storing everything (token-efficient pattern)

Este contenido aborda un error común en el desarrollo de aplicaciones con Claude: enviar el historial completo de la conversación con cada solicitud, lo que resulta en altos costos de tokens. Propone un patrón eficiente en el uso de tokens para gestionar el historial de conversaciones, asegurando la funcionalidad mientras se controlan los gastos de la API.

Optimization Claude API large language models

RESEARCHAnthropic (YouTube)·7/5/2026

Translating Claude’s thoughts into language

Este contenido explora la fascinante área de traducir los procesos internos o "pensamientos" de un modelo de inteligencia artificial como Claude a un lenguaje comprensible. Investiga cómo las operaciones complejas de la IA pueden interpretarse y expresarse para comprender mejor su razonamiento.

cognitive AI Natural Language Processing interpretability AI

Translating Claude’s thoughts into language

NEWSDEV.to AI·3/5/2026

Together AI Free API: Run Llama 3.3, DeepSeek R1, and FLUX Image Generation for Free in 2026

Together AI está ofreciendo acceso gratuito a su API para modelos avanzados como Llama 3.3, DeepSeek R1 y FLUX para la generación de imágenes. Este acceso gratuito estará disponible hasta 2026, permitiendo a los desarrolladores utilizar estas potentes capacidades de IA sin costo.

image generation API Free Access Together AI

ARTICLEDEV.to AI·19/4/2026

I Built an AI Memory System. Then I Forgot About It.

El autor construyó un sistema de memoria de IA para Claude que ha estado funcionando desde febrero. Esta retrospectiva explora cómo el sistema se volvió autosuficiente e integrado, reduciendo la necesidad de mantenimiento e intervención constantes del creador.

Knowledge Graphs AI Memory Systems personal projects large language models

RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.CL·15/4/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Esta investigación examina sistemáticamente el Efecto de la Víctima Identificable (EVI) en Grandes Modelos de Lenguaje, un sesgo cognitivo que favorece a víctimas narrativamente descritas sobre grupos estadísticos. El estudio empírico a gran escala en 16 LLM de frontera evalúa si estos sistemas heredan irracionalidades afectivas humanas en aplicaciones críticas como el triaje humanitario y la moderación de contenido.

Identifiable Victim Effect cognitive bias AI ethics large language models

RESEARCHarXiv CS.LG·15/4/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Este artículo describe un intento de destilar disposiciones conductuales en pequeños modelos de lenguaje (0.6B-2.3B parámetros) a través de una tubería de destilación. Las ganancias iniciales reportadas fueron posteriormente falsificadas debido a artefactos de evaluación, lo que resultó en un resultado negativo para la hipótesis central y dio lugar a tres arcos de investigación posteriores.

Negative Results Model Distillation Behavioral Dispositions large language models

RESEARCHarXiv CS.LG·15/4/2026

A Layer-wise Analysis of Supervised Fine-Tuning

Esta investigación analiza el Supervised Fine-Tuning (SFT), revelando que las capacidades de seguir instrucciones emergen distintamente en las capas: las capas medias son estables, mientras que las finales son muy sensibles. Aprovechando esto, los autores proponen Mid-Block Efficient Tuning, que actualiza capas intermedias críticas, superando a LoRA estándar con menor sobrecarga de parámetros.

Supervised Fine-Tuning Layer-wise Analysis Catastrophic Forgetting large language models

RESEARCHarXiv CS.AI·25/4/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Este trabajo introduce un marco innovador para la asignación adaptativa de cómputo en tiempo de prueba, ajustando conjuntamente dónde se gasta la computación y cómo se realiza la generación. El método utiliza una fase de calentamiento para identificar consultas fáciles y luego concentra más computación en consultas no resueltas, remodelando las distribuciones de generación con demostraciones en contexto en evolución.

deep learning machine learning in-context learning AI

RESEARCHarXiv CS.AI·13/4/2026

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Esta investigación explora el uso de un marco de retroalimentación de modelo de lenguaje agéntico para generar dominios de planificación de alta calidad a partir de descripciones de lenguaje natural aumentadas. Evalúa el impacto de varios mecanismos de retroalimentación simbólica, como puntos de referencia y validación de planes, junto con búsqueda heurística para optimizar la calidad del dominio.

Symbolic AI Agentic AI AI Planning Feedback Systems

RESEARCHarXiv CS.LG·13/4/2026

Distributionally Robust Token Optimization in RLHF

Para abordar la susceptibilidad de los LLMs a fallos por pequeños cambios en las instrucciones, especialmente en el razonamiento de varios pasos, los investigadores proponen la Optimización de Tokens Robusta Distribucionalmente (DRTO). Este enfoque combina el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) a nivel de token con la Optimización Robusta Distribucionalmente (DRO) para mejorar la consistencia bajo cambios de distribución, mostrando mejoras en benchmarks de razonamiento matemático.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·14/4/2026

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Los grandes modelos de lenguaje suelen ser demasiado confiados, expresando alta certeza incluso cuando responden incorrectamente. Este trabajo presenta SECL, un método de entrenamiento en tiempo de prueba que aprovecha una señal de auto-supervisión para mejorar la calibración sin datos etiquetados.

Calibration self-supervision Overconfidence large language models

RESEARCHarXiv CS.AI·27/4/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Este contenido introduce un nuevo concepto, la 'Temperatura de Fondo', para caracterizar la aleatoriedad oculta en los Grandes Modelos de Lenguaje.

LLMs machine learning randomness large language models

RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.AI·30/4/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Esta investigación estudia la fiabilidad de agentes autónomos de modelos de lenguaje que negocian ETH real en un mercado onchain, demostrado por un despliegue de 21 días que generó millones de invocaciones y $20M en volumen. El estudio mostró un 99.9% de éxito en la liquidación, proporcionando un rastro a gran escala para analizar la robustez de estos sistemas más allá del modelo base.

Blockchain Finance Reliability large language models

RESEARCHarXiv CS.CL·14/4/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Esta investigación presenta el Cognitive Synergy Framework para abordar el desafío de la generación de humor en LLMs, que entra en conflicto con su objetivo estándar de predecir la siguiente palabra. Utiliza un enfoque Mixture-of-Thought con seis personas cognitivas para sintetizar diversas perspectivas cómicas, creando un conjunto de datos teóricamente fundamentado utilizado para afinar un modelo de 7B parámetros que supera a líneas de base más grandes.

Persona-Based AI Cognitive Synergy Framework Mixture-of-Thought large language models

RESEARCHarXiv CS.CL·30/4/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Este estudio evalúa la capacidad de LLMs de propósito general para extraer información de facturas de electricidad españolas sin ajuste fino, demostrando que la calidad del prompt es más crítica que la optimización de hiperparámetros. Las estrategias few-shot superan a las zero-shot en más de 19 puntos porcentuales de F1-score.

prompt-engineering Information Extraction Benchmarking large language models