← heapsort-ai

LLMs

719 items

ARTICLEDEV.to AI·hace 3d

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Los chatbots de IA estándar fallan al convertir tablas financieras complejas de imágenes o escaneos, lo que lleva a errores como columnas desplazadas y números alucinado. Esto sucede porque los LLM multimodales generales no logran preservar diseños de cuadrícula intrincados, lo que requiere pipelines especializados para una extracción de datos precisa y la integridad.

30
RESEARCHDEV.to AI·13/4/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se enfoca en la integración de herramientas externas con grandes modelos de lenguaje para aumentar sus capacidades. Este enfoque permite a los LLMs realizar tareas complejas de manera más efectiva, aprovechando funciones especializadas e interacciones del mundo real.

30
RESEARCHarXiv CS.CL·13/4/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Este estudio evalúa el rendimiento de estrategias de prompting (chain-of-thought y zero-shot) en LLMs de razonamiento extendido como Grok-4.1, variando la temperatura de muestreo en 39 problemas matemáticos desafiantes. Se encontró que el prompting de disparo cero alcanza su máximo rendimiento a temperaturas moderadas, mientras que el chain-of-thought funciona mejor en los extremos de temperatura, aumentando el beneficio del razonamiento extendido.

30
RESEARCHarXiv CS.CL·hace 5d

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

30
ARTICLEDEV.to AI·13/4/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

El creador construyó autario, una plataforma de datos que hace que más de 2.500 conjuntos de datos públicos verificados de diversas fuentes sean consultables para humanos, aplicaciones y, especialmente, agentes de IA. Esta plataforma busca prevenir las alucinaciones de los LLM al permitir consultas de datos en tiempo real y la publicación de gráficos con información verificada.

29
RESEARCHarXiv CS.AI·hace 13d

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

Este artículo de investigación revela que los grandes modelos de lenguaje fallan fundamentalmente en el descubrimiento causal debido a su incapacidad para distinguir entre grafos causales que generan datos observacionales similares. Introduce un "teorema de obstrucción de kernel" para formalizar esta limitación intrínseca de los paradigmas de aprendizaje actuales.

29
RESEARCHarXiv CS.CL·16/4/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Esta investigación presenta un enfoque de IA generativa mejorado con razonamiento matemático para la derivación de fórmulas de comunicación óptica, centrándose en el modelado de interferencia no lineal de fibra. El estudio reconstruyó expresiones conocidas y derivó una nueva aproximación utilizando un LLM, demostrando consistencia física y precisión práctica.

29
RESEARCHarXiv CS.CL·hace 22d

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

El artículo propone la anotación legal multi-etiqueta como una tarea de recuperación, utilizando modelos congelados y k-vecinos más cercanos para asignar etiquetas. Este método logra una precisión competitiva y una alta eficiencia de datos en conjuntos de datos legales, reduciendo significativamente los costos computacionales en comparación con el ajuste fino de grandes modelos de lenguaje.

29
RESEARCHarXiv CS.CL·hace 14d

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Este artículo presenta la primera encuesta unificada sobre la Exposición de Datos de Preentrenamiento (PDE) en Large Language Models (LLMs), cubriendo la contaminación de datos y la inferencia de membresía. Formaliza PDE, revisa métodos de ataque y defensa, y destaca desafíos futuros para garantizar la integridad de la evaluación y proteger la privacidad.

29
RESEARCHarXiv CS.AI·hace 6d

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Presentamos VAMPS, un nuevo benchmark para modelos de lenguaje grandes multimodales (MLLM) centrado en la resolución de problemas matemáticos asistidos visualmente. Contiene 1.168 pares bilingües de preguntas y respuestas de opción múltiple de exámenes de acceso a universidades iraníes, donde la representación gráfica ofrece una estrategia de solución natural.

29
ARTICLEDEV.to AI·21/4/2026

How we handle LLM context window limits without losing conversation quality

Este artículo aborda el desafío crítico de los límites de la ventana de contexto de los LLM, lo que provoca que los chatbots olviden información y los agentes pierdan el rumbo, a pesar de que los modelos ofrecen ventanas más grandes. Destaca que simplemente expandir las ventanas de contexto es insuficiente debido a costos prohibitivos y mayor latencia, prometiendo compartir estrategias de producción y sus compensaciones.

29