← heapsort-ai

Information Retrieval

36 items

RESEARCHarXiv CS.CL·hace 20h

Bidirectional Small-Granularity Search between Code and Text

Esta investigación presenta una nueva tarea de búsqueda bidireccional de granularidad pequeña entre código y texto, con el objetivo de vincular publicaciones científicas con segmentos de código correspondientes. Propone un gran conjunto de datos, parcialmente generado por GPT-4, y un enfoque modular que logra buenos resultados.

54
ARTICLE↑ trendingHacker News (AI)·hace 7d

RSS is back. AI agents are reading it

RSS está resurgiendo como una forma eficaz para que los agentes de IA consuman contenido web, ofreciendo una fuente de información estructurada y actualizada. Esto permite que los modelos de IA accedan y procesen grandes volúmenes de datos de manera más eficiente, marcando un nuevo capítulo para esta tecnología anteriormente considerada obsoleta.

42
ARTICLEDEV.to AI·hace 18d

📚 The Book Pattern: Progressive Disclosure for AI Agents

Este artículo introduce el 'Patrón del Libro' y la 'divulgación progresiva' como un modelo mental para cómo los agentes de IA deberían consumir información. Sugiere que los agentes deberían interactuar progresivamente con los detalles del proyecto, comenzando con descripciones generales y profundizando solo cuando sea necesario, reflejando el comportamiento humano con los libros.

34
RESEARCHarXiv CS.CL·hace 21d

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

El artículo propone la anotación legal multi-etiqueta como una tarea de recuperación, utilizando modelos congelados y k-vecinos más cercanos para asignar etiquetas. Este método logra una precisión competitiva y una alta eficiencia de datos en conjuntos de datos legales, reduciendo significativamente los costos computacionales en comparación con el ajuste fino de grandes modelos de lenguaje.

29
DOCDEV.to AI·22/4/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Los sistemas de Generación Aumentada por Recuperación (RAG) se presentan como un enfoque revolucionario para que las empresas construyan sistemas de conocimiento inteligentes, combinando LLMs con conocimiento de dominio específico. Esta guía, basada en la experiencia de Groovy Web con empresas Fortune 500, cubre el proceso integral de construcción e implementación de sistemas RAG listos para producción, desde la arquitectura hasta la monitorización.

28
RESEARCHDEV.to AI·21/4/2026

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual SoftmaxLoss

Esta investigación propone un método novedoso para mejorar la recuperación de video-texto mediante la integración de la alineación de corpus multi-stream. También introduce una función Dual SoftmaxLoss para mejorar aún más la precisión y eficiencia de la coincidencia entre el contenido de video y las descripciones textuales.

27
ARTICLEDEV.to AI·22/4/2026

RAG: How AI Models Use Your Data Without Forgetting

Los grandes modelos de lenguaje son inherentemente sin estado, carecen de memoria de conversaciones anteriores o acceso a datos actualizados o privados. RAG (Retrieval Augmented Generation) aborda esto introduciendo un paso de recuperación, permitiendo que los modelos accedan a información externa y funcionen como un motor de razonamiento sobre esos datos.

27
ARTICLEDEV.to AI·8/5/2026

Stop Rereading Your Documents. Let the AI Study Them Once.

Este contenido subraya la ineficiencia de los flujos de trabajo RAG ingenuos que resintetizan respuestas repetidamente para el conocimiento estático, generando costos e inconsistencias. Propone compilar el conocimiento en el momento de la ingesta, un patrón sugerido por Andrej Karpathy (llm-wiki.md), donde un LLM lee un documento una vez para crear páginas wiki estructuradas. Zenii implementa este patrón optimizado de forma predeterminada.

27
ARTICLEDEV.to AI·4/5/2026

Why Your Vector Index Returns Five Copies of the Same Doc

El contenido describe un fallo común en los sistemas RAG donde el índice vectorial devuelve múltiples copias del mismo fragmento de documento, llenando la ventana de contexto del LLM con redundancia. Esto impide que el LLM acceda a información diversa y proporcione respuestas matizadas; la solución implica la deduplicación por hash antes de la clasificación y MMR.

27
DOCDEV.to AI·hace 16d

RAG 시스템 실전 구축 (v18)

Este documento detalla la implementación práctica de sistemas RAG (Retrieval-Augmented Generation), explicando sus conceptos fundamentales y el ciclo operativo. Cubre las etapas de recuperación, aumento y generación de contexto para mejorar las respuestas de los LLM, incluyendo la fragmentación semántica de documentos.

27
ARTICLEDEV.to AI·hace 9d

Start Here: My AI Memory Research So Far

El autor describe su trayectoria en la investigación de la memoria de IA, detallando cuatro etapas de descubrimientos sobre el funcionamiento y los desafíos de estos sistemas. Explora la supervivencia de la memoria después de los reinicios, la importancia de la memoria de corrección, la relación entre la precisión de recuperación y la seguridad, y la distinción crucial entre relevancia y autoridad en la memoria de IA.

27
DOCDEV.to AI·26/4/2026

What 40 Channels Means in AutoSearch

El texto explica que "40 canales" en AutoSearch significa acceso a investigación específica de fuentes a través de diversos ecosistemas como web, académico, desarrollador, social y video. Cada canal representa una familia de fuentes distintas, permitiendo a los agentes y humanos realizar una investigación más precisa y juzgar mejor los resultados.

27