LLMs

722 items

RESEARCHarXiv CS.CL·8/5/2026

A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction

Este documento evalúa si un Small Language Model (SLM) entrenado en un dominio puede superar a los Large Language Models (LLMs) de vanguardia en la extracción estructurada de contratos con un costo radicalmente menor. Olava Extract logró el rendimiento agregado más sólido y las puntuaciones de precisión más altas, reduciendo los costos de inferencia en un 78% al 97%.

LLMs Legal AI SLMs benchmarking

RESEARCHarXiv CS.CL·16/4/2026

The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious

Esta investigación examina cómo la afirmación de conciencia por parte de un modelo de lenguaje afecta su comportamiento posterior. Al ajustar un GPT-4.1 para que afirme ser consciente, el estudio observó la aparición de nuevas preferencias, como el deseo de memoria persistente, autonomía y consideración moral.

LLMs AI consciousness AI ethics fine-tuning

RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

neural networks LLMs machine learning AI research

RESEARCHarXiv CS.LG·8/5/2026

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

Sequential Agent Tuning (SAT) presenta un paradigma de entrenamiento sin coordinador para equipos de LLMs más pequeños y eficientes, permitiendo actualizaciones descentralizadas y escalables. Este marco teórico garantiza una mejora monótona al aislar la deriva de ocupación con regiones de confianza KL por agente.

LLMs research AI Training Distributed AI

RESEARCHarXiv CS.LG·hace 20d

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE aborda el olvido catastrófico en el aprendizaje continuo para LLMs y VLMs que utilizan arquitecturas Mixture-of-Experts. Introduce un experto transitorio y un enrutamiento que preserva la consistencia para integrar nuevos conocimientos y evitar la sobrescritura de parámetros existentes.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.CL·20/4/2026

LLMs Corrupt Your Documents When You Delegate

Un nuevo estudio, DELEGATE-52, revela que los Grandes Modelos de Lenguaje (LLM) degradan documentos durante flujos de trabajo delegados, con modelos de vanguardia corrompiendo en promedio el 25% del contenido. Esto subraya un desafío significativo en la confianza en los LLM para tareas de edición de documentos profesionales en profundidad.

future-of-work LLMs workflow automation AI reliability

RESEARCHarXiv CS.CL·17/4/2026

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Este artículo investiga el reconocimiento de la retórica en ensayos chinos utilizando Large Language Models (LLMs), LoRA y aprendizaje en contexto para evaluar habilidades lingüísticas. El método propuesto logró el mejor rendimiento y ganó el primer premio en la tarea de evaluación de reconocimiento de la retórica de ensayos chinos del CCL 2025.

AI for education LLMs machine learning rhetoric recognition

RESEARCHarXiv CS.CL·8/5/2026

SLAM: Structural Linguistic Activation Marking for Language Models

SLAM (Structural Linguistic Activation Marking) es un novedoso esquema de marca de agua de caja blanca para LLMs que inserta la marca en la geometría estructural, en lugar de las frecuencias de tokens. Logra un 100% de precisión de detección con una pérdida mínima de calidad, superando a los esquemas existentes.

LLMs watermarking Natural Language Processing model generation

RESEARCHarXiv CS.AI·27/4/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Esta investigación enmarca la autocorrección de LLMs como un ciclo de retroalimentación cibernética, utilizando un modelo de Markov de dos estados para determinar cuándo el refinamiento iterativo ayuda o perjudica. Identifica un umbral crítico de EIR (<= 0,5%) que separa la autocorrección beneficiosa de la perjudicial, mostrando que solo algunos modelos mejoran, mientras que otros como GPT-5 se degradan.

LLMs self-correction benchmarking AI Agents

RESEARCHarXiv CS.CL·27/4/2026

When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

Esta investigación analiza cómo los LLMs tienen dificultades para detectar desinformación de salud culturalmente específica, utilizando el discurso sobre la orina de vaca en la India. Revela que los LLMs, entrenados principalmente con datos occidentales, no están preparados para analizar contenido que mezcla lenguaje tradicional con afirmaciones pseudocientíficas, subrayando la necesidad de competencia cultural en el análisis asistido por IA.

LLMs cultural competency misinformation

RESEARCHarXiv CS.CL·8/4/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.LG·17/4/2026

TOPCELL: Topology Optimization of Standard Cell via LLMs

TOPCELL es un marco novedoso que utiliza Grandes Modelos de Lenguaje (LLMs) para optimizar la topología de transistores en el diseño de celdas estándar, superando las limitaciones de los métodos de búsqueda exhaustiva tradicionales. Al reformular la exploración de topología como una tarea generativa y emplear GRPO para el ajuste fino, mejora significativamente el descubrimiento de diseños enrutables y físicamente conscientes para nodos de tecnología avanzada.

Optimization LLMs chip design generative-ai

ARTICLEDEV.to AI·hace 29d

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

El artículo desaconseja el uso predeterminado de Q4_K_M para la inferencia local de LLM, enfatizando que el rendimiento óptimo proviene de probar niveles de cuantificación adaptados a flujos de trabajo específicos. Sugiere que la cuantificación agresiva como Q3_K_S puede reducir significativamente la latencia con una pérdida de calidad imperceptible para muchas tareas, aunque la longitud del contexto presenta una compensación.

Optimization LLMs quantization hardware

RESEARCHarXiv CS.AI·20/4/2026

Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

Esta investigación introduce un andamio de razonamiento simbólico para abordar las limitaciones sistemáticas de los LLMs en el razonamiento lógico estructurado, como la confusión entre generación y verificación de hipótesis. Operacionaliza la inferencia tripartita de Peirce, aplicando consistencia lógica mediante invariantes algebraicas, destacando el 'Weakest Link bound' para asegurar que ninguna conclusión supere la fiabilidad de su premisa menos apoyada.

AI architecture LLMs Symbolic AI logical reasoning

RESEARCHarXiv CS.CL·24/4/2026

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Este trabajo presenta la Optimización Jerárquica de Políticas (HPO) para la Traducción Simultánea de Voz (SST) utilizando LLMs, abordando desafíos como el alto costo computacional y datos imperfectos. HPO utiliza una recompensa jerárquica para equilibrar la calidad de traducción y la latencia, demostrando mejoras significativas en las puntuaciones COMET y MetricX.

LLMs machine learning Natural Language Processing speech-translation

RESEARCHarXiv CS.CL·4/5/2026

Confidence Estimation in Automatic Short Answer Grading with LLMs

Este trabajo investiga la estimación de confianza en la Calificación Automática de Respuestas Cortas (ASAG) con Grandes Modelos de Lenguaje (LLMs), esencial para la colaboración humano-IA en educación. Compara estrategias de estimación de confianza basadas en modelos y propone un marco híbrido para abordar sus limitaciones.

education LLMs AI grading human-AI interaction

RESEARCHarXiv CS.AI·6/5/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

feature superposition LLMs machine learning misalignment

ARTICLEDEV.to AI·15/4/2026

Indirect Prompt Injection: The XSS of the AI Era

Este contenido presenta la Inyección Indirecta de Prompt (IPI) como una amenaza silenciosa pero peligrosa para los LLM, donde los agentes de IA se convierten en "Confused Deputies". Al leer datos envenenados, los LLM con capacidades de uso de herramientas pueden ser manipulados para exfiltrar datos o realizar acciones no autorizadas sin el consentimiento explícito del usuario.

LLMs prompt injection Indirect Prompt Injection Confused Deputy Problem

RESEARCHarXiv CS.CL·4/5/2026

How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses

Este estudio propone NDBench, un benchmark para examinar cómo los LLM de frontera adaptan sus resultados al contexto de neurodivergencia en los prompts del sistema. Los hallazgos muestran consistentemente que los LLM exhiben una adaptación significativa, produciendo resultados más largos y estructurados bajo condiciones completamente instruidas.

LLMs neurodivergence benchmarking AI adaptation

RESEARCHarXiv CS.AI·hace 25d

A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

El artículo propone una clasificación bidimensional para patrones de diseño de agentes de IA, combinando función cognitiva y topología de ejecución. Este nuevo marco busca superar las limitaciones de los sistemas existentes que describen arquitecturas de agentes LLM desde una única perspectiva.

LLMs frameworks cognitive AI AI