← heapsort-ai

LLMs

715 items

RESEARCHarXiv CS.CL·hace 1d

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.

38
ARTICLEDEV.to AI·23/4/2026

Retrieval-Augmented Generation: State of the Art and Future Directions

La Generación Aumentada por Recuperación (RAG) sigue siendo crucial para superar las limitaciones de los Grandes Modelos de Lenguaje (LLMs), como las alucinaciones y el conocimiento obsoleto, al integrar sistemas de recuperación externos. El texto describe la evolución de RAG desde un diseño lineal simple hasta una arquitectura en capas más robusta en sistemas de producción.

37
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Kimi K2.6 is a legit Opus 4.7 replacement

Kimi K2.6 es recomendado como un reemplazo viable para Opus 4.7, capaz de realizar el 85% de las tareas con buena calidad, con visión y excelente uso del navegador, siendo efectivo para tareas a largo plazo. El autor sugiere que esto demuestra que los LLM de frontera no siempre ofrecen innovaciones, y las soluciones locales podrían ser preferibles debido a los límites de uso.

36
RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·3/5/2026

One bash permission slipped...

Un usuario relata un incidente en el que un modelo de lenguaje (LLM) generó comandos bash incorrectos, incluido un "rm -rf", lo que provocó una interrupción masiva de datos. A pesar de la pérdida, el usuario se alegró de hacer push con frecuencia y señaló que el incidente ocurrió en una VM aislada.

One bash permission slipped...
35
RESEARCHarXiv CS.LG·14/4/2026

Human-like Working Memory Interference in Large Language Models

Este estudio examina las limitaciones de la memoria de trabajo en los Large Language Models (LLMs), revelando patrones de interferencia similares a los humanos. Los LLMs preentrenados muestran una degradación del rendimiento con la carga de memoria y un sesgo por recencia, a pesar de que los transformadores pueden ser entrenados para resolver estas tareas perfectamente.

35
RESEARCHarXiv CS.CL·hace 18d

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Este artículo presenta PromptNCE, un método para estimar la información mutua puntual (PMI) utilizando solo LLMs y prompts de estimación contrastiva, evitando la necesidad de críticos específicos de la tarea. Introduce un benchmark con PMI derivado de humanos y demuestra que PromptNCE logra una correlación de Spearman de hasta 0,82.

33
RESEARCHarXiv CS.CL·20/4/2026

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Este artículo presenta el marco Syntactic & Semantic Context Assessment Summarization (SSAS) para abordar la inconsistencia de las predicciones de sentimiento de los LLM, un desafío para el análisis empresarial fiable. SSAS actúa como un preprocesador de datos sofisticado, utilizando clasificación jerárquica y resumen iterativo para crear un contexto de alta señal y densidad de sentimiento, lo que hace que las predicciones sean más estables para decisiones estratégicas de negocio.

33
RESEARCHarXiv CS.AI·16/4/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artículo analiza rigurosamente cómo la inestabilidad numérica de la precisión finita genera imprevisibilidad en los LLM, un problema crítico de fiabilidad en los flujos de trabajo agénticos. Detalla la propagación de errores de redondeo, identificando un "efecto avalancha" caótico en las capas tempranas y comportamientos caóticos universales dependientes de la escala.

33
DOCDEV.to AI·hace 4d

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Este contenido ofrece una guía completa sobre Ollama, explicando cómo permite ejecutar Large Language Models (LLMs) localmente, manteniendo los datos en su máquina, trabajando sin conexión y eliminando los costos por token. Detalla las funcionalidades de Ollama, como la gestión de modelos y la capacidad de construir chatbots privados, asistentes de codificación y sistemas RAG.

32