LLMs

719 items

ARTICLEDEV.to AI·hace 20d

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

El autor detalla cómo utilizó Gemini 3.5 Flash, con su enorme ventana de contexto y alta velocidad, para refactorizar una base de código completa y abordar los desafíos de un monolito heredado. La nueva API de Interacciones fue crucial para gestionar los flujos de trabajo con estado sin necesidad de bucles de conversación manuales.

codebase management LLMs AI refactoring Gemini 3.5 Flash

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

El título sugiere que el ajuste fino de modelos de IA locales utilizando la marca

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

ARTICLEDEV.to AI·hace 3d

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Los chatbots de IA estándar fallan al convertir tablas financieras complejas de imágenes o escaneos, lo que lleva a errores como columnas desplazadas y números alucinado. Esto sucede porque los LLM multimodales generales no logran preservar diseños de cuadrícula intrincados, lo que requiere pipelines especializados para una extracción de datos precisa y la integridad.

chatbots LLMs Data Extraction AI

DOCDEV.to AI·hace 3d

GenericAgent: Unleash Self-Evolving AI with a Minimal Autonomous Framework!

GenericAgent es un framework de Python para crear agentes de IA autónomos y autoevolutivos, permitiendo a los LLM controlar sistemas informáticos locales con un conjunto mínimo de herramientas. Aprende y cristaliza automáticamente las ejecuciones de tareas exitosas en "Habilidades" reutilizables.

Self-evolving AI LLMs Autonomous systems Python Framework

CASEDEV.to AI·hace 3d

We Built an AI That Remembers Everything Your Team Forgets

Se desarrolló un sistema de IA llamado ECHO para transformar el caos de Slack en un Grafo de Conocimiento viviente, combatiendo el olvido del equipo. Utiliza LLMs para la extracción de entidades, construye relaciones en un grafo y aplica decaimiento temporal para mantener la relevancia de la experiencia del equipo.

LLMs Knowledge Graph team collaboration knowledge management

RESEARCHDEV.to AI·13/4/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se enfoca en la integración de herramientas externas con grandes modelos de lenguaje para aumentar sus capacidades. Este enfoque permite a los LLMs realizar tareas complejas de manera más efectiva, aprovechando funciones especializadas e interacciones del mundo real.

language models LLMs NLP Tool Augmentation

ARTICLEDEV.to AI·hace 3d

How I built an intent drift detector for LLM agents

Este artículo detalla la creación de SIP (State Integrity Protocol), una herramienta diseñada para detectar la deriva de intención y semántica en las salidas de los agentes LLM. Aborda el problema del fallo silencioso de los agentes de IA al verificar automáticamente las discrepancias entre los resultados esperados y los reales.

LLMs Semantic Drift Intent Detection AI agents

RESEARCHarXiv CS.CL·13/4/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Este estudio evalúa el rendimiento de estrategias de prompting (chain-of-thought y zero-shot) en LLMs de razonamiento extendido como Grok-4.1, variando la temperatura de muestreo en 39 problemas matemáticos desafiantes. Se encontró que el prompting de disparo cero alcanza su máximo rendimiento a temperaturas moderadas, mientras que el chain-of-thought funciona mejor en los extremos de temperatura, aumentando el beneficio del razonamiento extendido.

mathematical reasoning LLMs Prompting Temperature

ARTICLEDEV.to AI·hace 3d

AI agent memory management: beyond the context window

Este artículo aborda el problema crítico de los agentes de IA que olvidan información debido a las limitaciones de la ventana de contexto, donde los mensajes más antiguos son eliminados. Destaca que este es un problema de arquitectura de memoria, no de alucinación, y propone ir más allá de tratar la ventana de contexto como la única memoria del agente.

AI architecture LLMs Context window memory management

RESEARCHarXiv CS.CL·23/4/2026

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

Una nueva investigación sugiere que las "neuronas de alucinación" (H-neurons) que predicen alucinaciones en LLMs no se generalizan entre diferentes dominios de conocimiento. Esto implica que la alucinación podría no ser un mecanismo único con una firma neural universal, sino dependiente del contexto.

LLMs hallucination AI safety AI research

RESEARCHarXiv CS.CL·hace 5d

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

LLMs Medical Question Answering GRPO healthcare AI

ARTICLEDEV.to AI·13/4/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

El creador construyó autario, una plataforma de datos que hace que más de 2.500 conjuntos de datos públicos verificados de diversas fuentes sean consultables para humanos, aplicaciones y, especialmente, agentes de IA. Esta plataforma busca prevenir las alucinaciones de los LLM al permitir consultas de datos en tiempo real y la publicación de gráficos con información verificada.

verified data LLMs Data Platform data querying

RESEARCHarXiv CS.CL·hace 20d

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Este artículo presenta MedicalBench, un nuevo benchmark para evaluar Modelos de Lenguaje Grandes en la extracción de conceptos médicos de registros de salud electrónicos. Se centra en el razonamiento médico implícito y la fundamentación de evidencia, abordando el desafío de identificar conceptos no declarados explícitamente.

LLMs concept extraction Healthcare benchmarking

RESEARCHarXiv CS.AI·hace 13d

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

Este artículo de investigación revela que los grandes modelos de lenguaje fallan fundamentalmente en el descubrimiento causal debido a su incapacidad para distinguir entre grafos causales que generan datos observacionales similares. Introduce un "teorema de obstrucción de kernel" para formalizar esta limitación intrínseca de los paradigmas de aprendizaje actuales.

LLMs research Causal Discovery Machine Learning

RESEARCHarXiv CS.CL·16/4/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Esta investigación presenta un enfoque de IA generativa mejorado con razonamiento matemático para la derivación de fórmulas de comunicación óptica, centrándose en el modelado de interferencia no lineal de fibra. El estudio reconstruyó expresiones conocidas y derivó una nueva aproximación utilizando un LLM, demostrando consistencia física y precisión práctica.

mathematical reasoning LLMs Scientific Discovery Generative AI

RESEARCHarXiv CS.CL·hace 22d

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

El artículo propone la anotación legal multi-etiqueta como una tarea de recuperación, utilizando modelos congelados y k-vecinos más cercanos para asignar etiquetas. Este método logra una precisión competitiva y una alta eficiencia de datos en conjuntos de datos legales, reduciendo significativamente los costos computacionales en comparación con el ajuste fino de grandes modelos de lenguaje.

Multi-label Classification LLMs Legal AI Data efficiency

RESEARCHarXiv CS.CL·hace 14d

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Este artículo presenta la primera encuesta unificada sobre la Exposición de Datos de Preentrenamiento (PDE) en Large Language Models (LLMs), cubriendo la contaminación de datos y la inferencia de membresía. Formaliza PDE, revisa métodos de ataque y defensa, y destaca desafíos futuros para garantizar la integridad de la evaluación y proteger la privacidad.

LLMs membership inference data privacy security

RESEARCHarXiv CS.AI·hace 6d

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Presentamos VAMPS, un nuevo benchmark para modelos de lenguaje grandes multimodales (MLLM) centrado en la resolución de problemas matemáticos asistidos visualmente. Contiene 1.168 pares bilingües de preguntas y respuestas de opción múltiple de exámenes de acceso a universidades iraníes, donde la representación gráfica ofrece una estrategia de solución natural.

multimodal AI LLMs benchmarking mathematics

ARTICLEDEV.to AI·21/4/2026

How we handle LLM context window limits without losing conversation quality

Este artículo aborda el desafío crítico de los límites de la ventana de contexto de los LLM, lo que provoca que los chatbots olviden información y los agentes pierdan el rumbo, a pesar de que los modelos ofrecen ventanas más grandes. Destaca que simplemente expandir las ventanas de contexto es insuficiente debido a costos prohibitivos y mayor latencia, prometiendo compartir estrategias de producción y sus compensaciones.

LLMs Context window Cost Optimization performance

ARTICLEDEV.to AI·8/4/2026

I Built a Tool to Test Whether Multiple LLMs Working Together Can Beat a Single Model

O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.

multi-model AI avaliação de desempenho Orquestração LLMs