← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

27
RESEARCHarXiv CS.AI·hace 27d

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

El artículo presenta CLIPR, un marco para Grandes Modelos de Lenguaje (LLMs) que infiere preferencias latentes del usuario a partir de interacciones limitadas para una toma de decisiones alineada con los humanos. Aborda las dificultades de los LLMs para producir soluciones alineadas y las limitaciones de los enfoques existentes en la generalización de preferencias.

27
RESEARCHarXiv CS.CL·hace 21d

Prompting language influences diagnostic reasoning and accuracy of large language models

Esta investigación evaluó el impacto del idioma de las instrucciones en el razonamiento diagnóstico y la precisión de los grandes modelos de lenguaje (LLM) en entornos clínicos. Cuatro de los cinco modelos mostraron un mejor rendimiento en inglés, subrayando la incertidumbre sobre la fiabilidad de los LLM en otros idiomas.

27
RESEARCHarXiv CS.LG·hace 21d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

27
ARTICLEDEV.to AI·16/4/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Esta semana se centra en estrategias prácticas para la generación de código con IA utilizando las últimas capacidades de Claude Opus 4.7, prometiendo un rendimiento mejorado. Paralelamente, una propuesta significativa en Python busca potenciar la observabilidad del sistema, crucial para despliegues robustos de frameworks de IA y el uso de técnicas avanzadas de prompt engineering.

27
RESEARCHarXiv CS.CL·hace 28d

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Esta investigación evalúa sistemáticamente la relación entre la privacidad diferencial (DP) y el sesgo social en grandes modelos de lenguaje (LLM). Compara un LLM entrenado con DP con líneas base sin DP en varias tareas, encontrando que la DP reduce el sesgo en tareas de puntuación de oraciones, pero no de forma universal, y revela una discrepancia entre el sesgo a nivel de logit y a nivel de salida.

27
ARTICLEDEV.to AI·16/4/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

En abril de 2026, las sanciones por alucinaciones de IA se convirtieron en un problema serio para los consejos de administración, impulsadas por nuevas leyes estatales de privacidad y un marco de la Casa Blanca. Ahora se espera que las empresas comprendan y mitiguen las alucinaciones, con casos como el del viñedo de Oregón destacando los riesgos legales y financieros de la salida no verificada de LLM.

27
ARTICLEDEV.to AI·hace 11d

Why Most RAG Pipelines Fail in Production

Este artículo explora por qué la mayoría de los pipelines RAG (Generación Aumentada por Recuperación) fallan en producción, contrastando la simplicidad de las demos con la complejidad y el desorden de los conjuntos de datos del mundo real. Destaca los desafíos de la ingeniería de sistemas de IA, especialmente en la ingesta de datos para escalar RAG a entornos de producción.

27