← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·8/5/2026

A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction

Este documento evalúa si un Small Language Model (SLM) entrenado en un dominio puede superar a los Large Language Models (LLMs) de vanguardia en la extracción estructurada de contratos con un costo radicalmente menor. Olava Extract logró el rendimiento agregado más sólido y las puntuaciones de precisión más altas, reduciendo los costos de inferencia en un 78% al 97%.

27
RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

27
RESEARCHarXiv CS.LG·8/5/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

27
RESEARCHarXiv CS.CL·17/4/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Este artículo investiga el reconocimiento de la retórica en ensayos chinos utilizando Large Language Models (LLMs), LoRA y aprendizaje en contexto para evaluar habilidades lingüísticas. El método propuesto logró el mejor rendimiento y ganó el primer premio en la tarea de evaluación de reconocimiento de la retórica de ensayos chinos del CCL 2025.

27
RESEARCHarXiv CS.AI·27/4/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Esta investigación enmarca la autocorrección de LLMs como un ciclo de retroalimentación cibernética, utilizando un modelo de Markov de dos estados para determinar cuándo el refinamiento iterativo ayuda o perjudica. Identifica un umbral crítico de EIR (<= 0,5%) que separa la autocorrección beneficiosa de la perjudicial, mostrando que solo algunos modelos mejoran, mientras que otros como GPT-5 se degradan.

27
RESEARCHarXiv CS.CL·27/4/2026

When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

Esta investigación analiza cómo los LLMs tienen dificultades para detectar desinformación de salud culturalmente específica, utilizando el discurso sobre la orina de vaca en la India. Revela que los LLMs, entrenados principalmente con datos occidentales, no están preparados para analizar contenido que mezcla lenguaje tradicional con afirmaciones pseudocientíficas, subrayando la necesidad de competencia cultural en el análisis asistido por IA.

27
RESEARCHarXiv CS.LG·17/4/2026

TOPCELL: Topology Optimization of Standard Cell via LLMs

TOPCELL es un marco novedoso que utiliza Grandes Modelos de Lenguaje (LLMs) para optimizar la topología de transistores en el diseño de celdas estándar, superando las limitaciones de los métodos de búsqueda exhaustiva tradicionales. Al reformular la exploración de topología como una tarea generativa y emplear GRPO para el ajuste fino, mejora significativamente el descubrimiento de diseños enrutables y físicamente conscientes para nodos de tecnología avanzada.

27
ARTICLEDEV.to AI·hace 29d

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

El artículo desaconseja el uso predeterminado de Q4_K_M para la inferencia local de LLM, enfatizando que el rendimiento óptimo proviene de probar niveles de cuantificación adaptados a flujos de trabajo específicos. Sugiere que la cuantificación agresiva como Q3_K_S puede reducir significativamente la latencia con una pérdida de calidad imperceptible para muchas tareas, aunque la longitud del contexto presenta una compensación.

27
RESEARCHarXiv CS.AI·20/4/2026

Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

Esta investigación introduce un andamio de razonamiento simbólico para abordar las limitaciones sistemáticas de los LLMs en el razonamiento lógico estructurado, como la confusión entre generación y verificación de hipótesis. Operacionaliza la inferencia tripartita de Peirce, aplicando consistencia lógica mediante invariantes algebraicas, destacando el 'Weakest Link bound' para asegurar que ninguna conclusión supere la fiabilidad de su premisa menos apoyada.

27
RESEARCHarXiv CS.CL·24/4/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Este trabajo presenta la Optimización Jerárquica de Políticas (HPO) para la Traducción Simultánea de Voz (SST) utilizando LLMs, abordando desafíos como el alto costo computacional y datos imperfectos. HPO utiliza una recompensa jerárquica para equilibrar la calidad de traducción y la latencia, demostrando mejoras significativas en las puntuaciones COMET y MetricX.

27
RESEARCHarXiv CS.AI·6/5/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

27
ARTICLEDEV.to AI·15/4/2026

Indirect Prompt Injection: The XSS of the AI Era

Este contenido presenta la Inyección Indirecta de Prompt (IPI) como una amenaza silenciosa pero peligrosa para los LLM, donde los agentes de IA se convierten en "Confused Deputies". Al leer datos envenenados, los LLM con capacidades de uso de herramientas pueden ser manipulados para exfiltrar datos o realizar acciones no autorizadas sin el consentimiento explícito del usuario.

27
RESEARCHarXiv CS.CL·4/5/2026

How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses

Este estudio propone NDBench, un benchmark para examinar cómo los LLM de frontera adaptan sus resultados al contexto de neurodivergencia en los prompts del sistema. Los hallazgos muestran consistentemente que los LLM exhiben una adaptación significativa, produciendo resultados más largos y estructurados bajo condiciones completamente instruidas.

27