← heapsort-ai

Information Extraction

10 items

ARTICLEDEV.to AI·14/4/2026

Teaching Your AI to Read: Extracting Key Facts from Scanned Documents and PDFs

El artículo aconseja utilizar prompts específicos e investigativos, en lugar de comandos genéricos, para enseñar a la IA a extraer hechos clave de documentos escaneados y PDFs. Este método transforma la IA en un analista enfocado, permitiendo la extracción estructurada y automatizada de datos con herramientas como Make.com y ChatGPT.

53
RESEARCHarXiv CS.CL·17/4/2026

EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews

EviSearch es un sistema de IA multiagente que automatiza la extracción y auditoría de evidencia clínica de PDFs de ensayos para revisiones sistemáticas. Garantiza la procedencia por celda y mejora la precisión mediante agentes especializados y un módulo de reconciliación para la verificación humana.

27
RESEARCHarXiv CS.CL·30/4/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Este estudio evalúa la capacidad de LLMs de propósito general para extraer información de facturas de electricidad españolas sin ajuste fino, demostrando que la calidad del prompt es más crítica que la optimización de hiperparámetros. Las estrategias few-shot superan a las zero-shot en más de 19 puntos porcentuales de F1-score.

27
RESEARCHarXiv CS.CL·17/4/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert es un marco basado en LLM para el análisis robusto de comunicaciones marítimas de socorro, que son difíciles debido al ruido y las desviaciones de formato. Para abordar la escasez de datos reales etiquetados, el proyecto desarrolla una tubería de generación de datos sintéticos utilizando un LLM.

27
RESEARCHarXiv CS.CL·7/5/2026

Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction

Esta investigación presenta un marco implementable localmente que permite a modelos de lenguaje pequeños extraer entidades clínicas sensibles a la privacidad de notas dentales no estructuradas mediante indicaciones auto-generadas y refinadas. El estudio evaluó modelos de código abierto, logrando altas puntuaciones F1 con Qwen2.5-14B-Instruct y Llama-3.1-8B-Instruct después de un ajuste fino supervisado y optimización directa de preferencias.

27
RESEARCHarXiv CS.CL·6/5/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S es un nuevo benchmark para la extracción de información semiestructurada de informes clínicos derivados de OCR, abordando desafíos como representaciones de claves heterogéneas y ruido de OCR. Su objetivo es evaluar la robustez del modelo en entornos del mundo real para el descubrimiento de claves, QA condicionado a claves y extracción de pares clave-valor.

27
RESEARCHarXiv CS.CL·6/5/2026

Effective Performance Measurement: Challenges and Opportunities in KPI Extraction from Earnings Calls

Este artículo de investigación explora los desafíos en la extracción de KPI de llamadas de ganancias no estructuradas, en contraste con los archivos templados de la SEC. Presenta tres nuevos benchmarks (SECB, ECB y ECB-A) para evaluar modelos, encontrando que los modelos basados en codificadores tienen dificultades con el cambio de dominio.

27
ARTICLEDEV.to AI·21/4/2026

Convert Images into Presentations Automatically Using AI

El contenido describe un flujo de trabajo impulsado por IA para convertir automáticamente información visual de imágenes, como capturas de pantalla y diagramas, en presentaciones estructuradas. Este proceso tiene como objetivo simplificar el análisis manual y la creación de diapositivas, requiriendo imágenes claras y de alta calidad para obtener resultados óptimos.

26