Information Retrieval

36 items

RESEARCHarXiv CS.CL·hace 20h

Bidirectional Small-Granularity Search between Code and Text

Esta investigación presenta una nueva tarea de búsqueda bidireccional de granularidad pequeña entre código y texto, con el objetivo de vincular publicaciones científicas con segmentos de código correspondientes. Propone un gran conjunto de datos, parcialmente generado por GPT-4, y un enfoque modular que logra buenos resultados.

machine learning natural language processing Code Analysis Information Retrieval

ARTICLE↑ trendingHacker News (AI)·hace 7d

RSS is back. AI agents are reading it

RSS está resurgiendo como una forma eficaz para que los agentes de IA consuman contenido web, ofreciendo una fuente de información estructurada y actualizada. Esto permite que los modelos de IA accedan y procesen grandes volúmenes de datos de manera más eficiente, marcando un nuevo capítulo para esta tecnología anteriormente considerada obsoleta.

RSS news aggregation Information Retrieval AI agents

ARTICLE↑ trendingReddit r/MachineLearning·17/4/2026

SIGIR-AP: Good conference for IR? [D]

Un investigador universitario interesado en Recuperación de Información (IR) busca consejo sobre conferencias académicas menos competitivas para enviar su trabajo. Pregunta si SIGIR-AP, una conferencia nueva respaldada por SIGIR, es una buena opción y pide otras sugerencias.

research academic conferences Information Retrieval AI Research

ARTICLEDEV.to AI·20/4/2026

Why RAG Breaks in Real-World Systems (and How I’m Trying to Fix It)

Las configuraciones tradicionales de RAG fallan en sistemas del mundo real porque tratan los documentos recuperados como fragmentos aislados, sin lograr capturar las cadenas cruciales de relaciones entre ellos. Esto impide que los modelos estructuren respuestas complejas, incluso cuando la información individual es técnicamente relevante.

System design AI models RAG Information Retrieval

ARTICLEDEV.to AI·hace 18d

📚 The Book Pattern: Progressive Disclosure for AI Agents

Este artículo introduce el 'Patrón del Libro' y la 'divulgación progresiva' como un modelo mental para cómo los agentes de IA deberían consumir información. Sugiere que los agentes deberían interactuar progresivamente con los detalles del proyecto, comenzando con descripciones generales y profundizando solo cuando sea necesario, reflejando el comportamiento humano con los libros.

Mental Model Progressive Disclosure Architecture Information Retrieval

RESEARCHarXiv CS.CL·hace 21d

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

El artículo propone la anotación legal multi-etiqueta como una tarea de recuperación, utilizando modelos congelados y k-vecinos más cercanos para asignar etiquetas. Este método logra una precisión competitiva y una alta eficiencia de datos en conjuntos de datos legales, reduciendo significativamente los costos computacionales en comparación con el ajuste fino de grandes modelos de lenguaje.

Multi-label Classification LLMs Legal AI Data efficiency

ARTICLEDEV.to AI·hace 6d

How PageIndex Rethinks RAG Without Vector Search

PageIndex propone una alternativa al RAG tradicional, prescindiendo de los embeddings vectoriales y la búsqueda por similitud. Busca recuperar información exacta mediante navegación estructurada, abordando la imprecisión de los sistemas RAG actuales.

AI architecture RAG vector search Information Retrieval

ARTICLEDEV.to AI·hace 22d

GraphRAG vs vector RAG: when the knowledge graph pays for itself

Este contenido compara GraphRAG y Vector RAG, señalando las limitaciones del Vector RAG para el análisis holístico de corpus y cómo GraphRAG soluciona esto mediante grafos de conocimiento extraídos por LLMs y resúmenes jerárquicos. También aborda el coste de indexación significativamente mayor de GraphRAG y cuándo dicho coste se justifica.

Knowledge Graphs RAG Vector Embeddings Information Retrieval

ARTICLEDEV.to AI·9/4/2026

Building a Multi-Agent Research System with LangGraph: How I Taught Three AI Agents to Collaborate

O autor desenvolveu um sistema de IA multi-agente, o multi-agent-researcher, usando LangGraph, FAISS e Ollama, para recuperar e sintetizar informações de documentos internos e da web. Este artigo detalha a arquitetura, decisões de design e lições aprendidas na criação de agentes de IA colaborativos.

Open Source LangGraph multi-agent systems Information Retrieval

DOCDEV.to AI·22/4/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Los sistemas de Generación Aumentada por Recuperación (RAG) se presentan como un enfoque revolucionario para que las empresas construyan sistemas de conocimiento inteligentes, combinando LLMs con conocimiento de dominio específico. Esta guía, basada en la experiencia de Groovy Web con empresas Fortune 500, cubre el proceso integral de construcción e implementación de sistemas RAG listos para producción, desde la arquitectura hasta la monitorización.

LLMs RAG knowledge management Enterprise AI

RESEARCHDEV.to AI·21/4/2026

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual SoftmaxLoss

Esta investigación propone un método novedoso para mejorar la recuperación de video-texto mediante la integración de la alineación de corpus multi-stream. También introduce una función Dual SoftmaxLoss para mejorar aún más la precisión y eficiencia de la coincidencia entre el contenido de video y las descripciones textuales.

machine learning computer vision natural language processing Information Retrieval

ARTICLEDEV.to AI·22/4/2026

RAG: How AI Models Use Your Data Without Forgetting

Los grandes modelos de lenguaje son inherentemente sin estado, carecen de memoria de conversaciones anteriores o acceso a datos actualizados o privados. RAG (Retrieval Augmented Generation) aborda esto introduciendo un paso de recuperación, permitiendo que los modelos accedan a información externa y funcionen como un motor de razonamiento sobre esos datos.

LLMs RAG AI Information Retrieval

ARTICLEDEV.to AI·8/5/2026

Stop Rereading Your Documents. Let the AI Study Them Once.

Este contenido subraya la ineficiencia de los flujos de trabajo RAG ingenuos que resintetizan respuestas repetidamente para el conocimiento estático, generando costos e inconsistencias. Propone compilar el conocimiento en el momento de la ingesta, un patrón sugerido por Andrej Karpathy (llm-wiki.md), donde un LLM lee un documento una vez para crear páginas wiki estructuradas. Zenii implementa este patrón optimizado de forma predeterminada.

RAG AI workflow knowledge management Information Retrieval

ARTICLEDEV.to AI·4/5/2026

Why Your Vector Index Returns Five Copies of the Same Doc

El contenido describe un fallo común en los sistemas RAG donde el índice vectorial devuelve múltiples copias del mismo fragmento de documento, llenando la ventana de contexto del LLM con redundancia. Esto impide que el LLM acceda a información diversa y proporcione respuestas matizadas; la solución implica la deduplicación por hash antes de la clasificación y MMR.

RAG vector search AI Information Retrieval

DOCDEV.to AI·hace 16d

RAG 시스템 실전 구축 (v18)

Este documento detalla la implementación práctica de sistemas RAG (Retrieval-Augmented Generation), explicando sus conceptos fundamentales y el ciclo operativo. Cubre las etapas de recuperación, aumento y generación de contexto para mejorar las respuestas de los LLM, incluyendo la fragmentación semántica de documentos.

RAG NLP Information Retrieval Generative AI

RESEARCHDEV.to AI·hace 7d

GrepSeek Trains a Search Agent to Use Shell Commands: GRPO-Trained Shell-Command Search

GrepSeek es un método para entrenar un agente de búsqueda para usar comandos de shell como grep en lugar de índices vectoriales. Aprende una política para buscar archivos de texto sin procesar directamente, logrando un sólido rendimiento en benchmarks de QA sin índices preexistentes.

Shell Commands machine learning Search Agents AI

ARTICLEDEV.to AI·hace 9d

Start Here: My AI Memory Research So Far

El autor describe su trayectoria en la investigación de la memoria de IA, detallando cuatro etapas de descubrimientos sobre el funcionamiento y los desafíos de estos sistemas. Explora la supervivencia de la memoria después de los reinicios, la importancia de la memoria de corrección, la relación entre la precisión de recuperación y la seguridad, y la distinción crucial entre relevancia y autoridad en la memoria de IA.

Memory Systems Information Retrieval AI Research AI agents

RESEARCHDEV.to AI·21/4/2026

A Few Brief Notes on DeepImpact, COIL, and a Conceptual Framework forInformation Retrieval Techniques

Este contenido presenta notas breves sobre DeepImpact y COIL, dos técnicas de recuperación de información. También introduce un marco conceptual para comprender y aplicar estos y otros métodos relacionados.

AI models frameworks DeepImpact Information Retrieval

DOCDEV.to AI·26/4/2026

What 40 Channels Means in AutoSearch

El texto explica que "40 canales" en AutoSearch significa acceso a investigación específica de fuentes a través de diversos ecosistemas como web, académico, desarrollador, social y video. Cada canal representa una familia de fuentes distintas, permitiendo a los agentes y humanos realizar una investigación más precisa y juzgar mejor los resultados.

search AI data sources Information Retrieval

ARTICLEDeepLearning.AI (YouTube)·hace 18d

Semantic Search Starts With Embeddings

Este contenido explora el concepto de búsqueda semántica, destacando que comienza con el uso de embeddings. Profundiza en los fundamentos técnicos detrás de la recuperación de información basada en el significado.

natural language processing semantic search embeddings AI