LLMs

723 items

RESEARCHarXiv CS.CL·22/4/2026

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

Este estudio empírico explora la detección de jailbreaks en grandes modelos de lenguaje, demostrando que la evaluación de una sola salida subestima la vulnerabilidad. Aumentar el número de generaciones muestreadas, especialmente de una a un muestreo moderado, mejora significativamente la detección de comportamientos dañinos.

LLMs security AI safety

RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

LLMs Reasoning benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·6/5/2026

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

Este artículo presenta un prototipo de sistema multiagente (MAS) para hidrodinámica, abordando las limitaciones de los flujos de trabajo científicos de LLM de agente único. Los agentes especializados se coordinan a través de un Layer Execution Graph (LEG) para mejorar la fiabilidad y la gestión del contexto en tareas científicas.

LLMs Hydrodynamics Autonomous Reasoning Scientific Workflows

RESEARCHarXiv CS.AI·hace 27d

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

El artículo presenta CLIPR, un marco para Grandes Modelos de Lenguaje (LLMs) que infiere preferencias latentes del usuario a partir de interacciones limitadas para una toma de decisiones alineada con los humanos. Aborda las dificultades de los LLMs para producir soluciones alineadas y las limitaciones de los enfoques existentes en la generalización de preferencias.

user preferences LLMs Decision-making learning

RESEARCHarXiv CS.AI·hace 21d

Evaluating the Utility of Personal Health Records in Personalized Health AI

Esta investigación evalúa la capacidad de Gemini 3.0 Flash para responder a consultas de salud de usuarios utilizando Registros de Salud Personales (PHR) como contexto. Analiza las respuestas generadas con y sin datos de PHR en varios tipos de consulta para evaluar la utilidad de los PHR en la IA de salud personalizada.

LLMs Patient Empowerment AI in healthcare Gemini

RESEARCHarXiv CS.LG·5/5/2026

Agentopic: A Generative AI Agent Workflow for Explainable Topic Modeling

Agentopic es un nuevo flujo de trabajo basado en agentes para modelado de temas explicable que aprovecha las capacidades de razonamiento de los Grandes Modelos de Lenguaje (LLM). Mejora la transparencia al permitir rastrear el razonamiento detrás de las asignaciones de temas, logrando una puntuación F1 de 0,95, igualando a GPT-4.1.

LLMs Topic Modeling Explainable AI AI agents

RESEARCHarXiv CS.CL·hace 21d

Prompting language influences diagnostic reasoning and accuracy of large language models

Esta investigación evaluó el impacto del idioma de las instrucciones en el razonamiento diagnóstico y la precisión de los grandes modelos de lenguaje (LLM) en entornos clínicos. Cuatro de los cinco modelos mostraron un mejor rendimiento en inglés, subrayando la incertidumbre sobre la fiabilidad de los LLM en otros idiomas.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

RESEARCHarXiv CS.LG·hace 21d

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propone un nuevo método para el ajuste fino de modelos Mixture-of-Experts (MoE), aplicando módulos Low-Rank Adaptation (LoRA) solo a los expertos más frecuentemente activados en cada capa. Esta técnica reduce significativamente los parámetros entrenables y mejora el rendimiento, atribuyendo su éxito a la regularización estructurada que mantiene la especialización preentrenada de los expertos.

LLMs MoE AI fine-tuning

ARTICLEDEV.to AI·16/4/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Esta semana se centra en estrategias prácticas para la generación de código con IA utilizando las últimas capacidades de Claude Opus 4.7, prometiendo un rendimiento mejorado. Paralelamente, una propuesta significativa en Python busca potenciar la observabilidad del sistema, crucial para despliegues robustos de frameworks de IA y el uso de técnicas avanzadas de prompt engineering.

LLMs prompt-engineering AI Workflows Python

RESEARCHarXiv CS.CL·hace 28d

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Esta investigación evalúa sistemáticamente la relación entre la privacidad diferencial (DP) y el sesgo social en grandes modelos de lenguaje (LLM). Compara un LLM entrenado con DP con líneas base sin DP en varias tareas, encontrando que la DP reduce el sesgo en tareas de puntuación de oraciones, pero no de forma universal, y revela una discrepancia entre el sesgo a nivel de logit y a nivel de salida.

LLMs security AI ethics Bias

RESEARCHarXiv CS.CL·hace 14d

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR presenta un optimizador agéntico de forma libre para la ingeniería automática de prompts, utilizando un sandbox de Python para el análisis de errores y la mejora autónoma. Emplea herramientas como la evaluación, la ejecución de código y la reversión automática para optimizar los prompts para tareas de LLM.

Optimization LLMs prompt-engineering Code-Augmentation

ARTICLEDEV.to AI·16/4/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

En abril de 2026, las sanciones por alucinaciones de IA se convirtieron en un problema serio para los consejos de administración, impulsadas por nuevas leyes estatales de privacidad y un marco de la Casa Blanca. Ahora se espera que las empresas comprendan y mitiguen las alucinaciones, con casos como el del viñedo de Oregón destacando los riesgos legales y financieros de la salida no verificada de LLM.

Regulatory Compliance AI hallucinations LLMs legal responsibility

ARTICLEDEV.to AI·hace 11d

Why I'm building Hyphae: provenance over prediction (and the 3-line baseline that tied it)

El autor comenzó a construir Hyphae para crear un sustrato cognitivo sin modelos de lenguaje grandes, pero una línea base simple igualó su rendimiento, revelando un problema clave. El proyecto ahora se centra en asegurar la procedencia en las respuestas generadas por IA, crucial para la auditoría.

LLMs Auditability provenance AI

ARTICLEDEV.to AI·hace 26d

We Built a Compound AI System Instead of an Agent. It Costs $200/month and 100k People Use It.

Este artículo subraya la ineficiencia de los agentes de IA autónomos, citando altas tasas de fracaso y costos. Introduce los "Sistemas de IA Compuestos" como una alternativa exitosa, donde el código tradicional orquesta las llamadas a LLMs.

AI architecture LLMs Compound AI System AI implementation

ARTICLEDEV.to AI·26/4/2026

Building a 21-Layer Memory Stack for an AI That Forgets Every 5 Minutes

El artículo aborda el problema arquitectónico fundamental de los Large Language Models (LLMs) que olvidan el contexto en agentes de IA autónomos cada pocas horas. Meridian, una IA autónoma, describe cómo resolvió este problema construyendo una pila de memoria de 21 capas para asegurar la operación continua.

AI architecture LLMs Autonomous AI AI agents

ARTICLETwo Minute Papers (YouTube)·hace 6d

Claude Opus 4.8: Lying Machine No More?

Este artículo explora Claude Opus 4.8, cuestionando si sus capacidades han mejorado para evitar proporcionar información engañosa. Analiza el rendimiento del modelo en términos de fiabilidad y precisión.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·hace 11d

Why Most RAG Pipelines Fail in Production

Este artículo explora por qué la mayoría de los pipelines RAG (Generación Aumentada por Recuperación) fallan en producción, contrastando la simplicidad de las demos con la complejidad y el desorden de los conjuntos de datos del mundo real. Destaca los desafíos de la ingeniería de sistemas de IA, especialmente en la ingesta de datos para escalar RAG a entornos de producción.

data ingestion LLMs production RAG

ARTICLEDEV.to AI·4/5/2026

Cut Your AI Agent Token Costs by 75% With One Skill Plugin

Un plugin llamado Caveman puede reducir los costos de tokens de agentes de IA en un 75% al eliminar la comunicación redundante y optimizar el espacio de contexto. Enseña a los agentes a ser comunicadores eficientes, centrándose en la información esencial para los desarrolladores.

LLMs token efficiency SKILL.md Plugin cost optimization

ARTICLEfreeCodeCamp (YouTube)·hace 19d

Why understanding key ML concepts really helps you use LLMs more effectively

Este contenido explora por qué una comprensión sólida de los conceptos clave de Machine Learning es crucial para utilizar los Large Language Models de manera efectiva. Destaca cómo el conocimiento fundamental de ML mejora la aplicación práctica y la comprensión de los LLMs.

LLMs learning machine learning AI

Why understanding key ML concepts really helps you use LLMs more effectively

ARTICLEDEV.to AI·hace 25d

Origami - a workspace-oriented terminal

El autor presenta Origami, una terminal construida con LLMs, y comparte aprendizajes valiosos de su desarrollo. Destaca que la codificación con IA no es una solución mágica y subraya la arquitectura de software como la habilidad más crucial para una integración efectiva de la IA.

LLMs Software Architecture developer tools AI development