← heapsort-ai

Information Extraction

10 items

ARTICLEDEV.to AI·14/04/2026

Teaching Your AI to Read: Extracting Key Facts from Scanned Documents and PDFs

L'article conseille d'utiliser des prompts spécifiques et d'investigation, plutôt que des commandes génériques, pour enseigner à l'IA l'extraction de faits clés des documents numérisés et PDF. Cette approche transforme l'IA en un analyste ciblé, permettant l'extraction de données structurées et l'automatisation avec des outils comme Make.com et ChatGPT.

53
RESEARCHarXiv CS.CL·17/04/2026

EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews

EviSearch est un système d'IA multi-agents qui automatise l'extraction et l'audit de preuves cliniques à partir de PDF d'essais pour les revues systématiques. Il garantit la provenance de chaque cellule et améliore la précision grâce à des agents spécialisés et un module de réconciliation pour la vérification humaine.

27
RESEARCHarXiv CS.CL·30/04/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Cette étude évalue la capacité des LLMs généralistes à extraire des informations de factures d'électricité espagnoles sans réglage fin, montrant que la qualité des prompts est primordiale sur l'ajustement des hyperparamètres. Les stratégies few-shot surpassent les approches zero-shot avec un écart de performance de plus de 19 points de pourcentage.

27
RESEARCHarXiv CS.CL·17/04/2026

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

SeaAlert est un cadre basé sur les LLM pour l'analyse robuste des communications de détresse maritime, qui sont difficiles en raison du bruit et des écarts de format. Pour pallier le manque de données réelles étiquetées, le projet développe un pipeline de génération de données synthétiques à l'aide d'un LLM.

27
RESEARCHarXiv CS.CL·07/05/2026

Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction

Cette recherche présente un cadre déployable localement permettant aux petits modèles de langage d'extraire des entités cliniques sensibles à la confidentialité à partir de notes dentaires non structurées via des invites auto-générées et affinées. L'étude a évalué des modèles à poids ouverts, obtenant des scores F1 élevés avec Qwen2.5-14B-Instruct et Llama-3.1-8B-Instruct après un réglage fin supervisé et une optimisation directe des préférences.

27
RESEARCHarXiv CS.CL·06/05/2026

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

MedStruct-S est un nouveau benchmark pour l'extraction d'informations semi-structurées à partir de rapports cliniques dérivés de l'OCR, s'attaquant aux défis des représentations de clés hétérogènes et du bruit de l'OCR. Il vise à évaluer la robustesse des modèles dans des scénarios réels pour la découverte de clés, le QA conditionné par les clés et l'extraction de paires clé-valeur.

27
RESEARCHarXiv CS.CL·06/05/2026

Effective Performance Measurement: Challenges and Opportunities in KPI Extraction from Earnings Calls

Cet article de recherche explore les défis liés à l'extraction des indicateurs de performance clés (KPI) à partir des appels de résultats non structurés, contrastant avec les dépôts normalisés de la SEC. Il introduit trois nouveaux benchmarks (SECB, ECB et ECB-A) pour évaluer les modèles, constatant que les modèles basés sur des encodeurs rencontrent des difficultés avec le changement de domaine.

27
ARTICLEDEV.to AI·21/04/2026

Convert Images into Presentations Automatically Using AI

Le contenu décrit un flux de travail basé sur l'IA pour convertir automatiquement les informations visuelles d'images, telles que des captures d'écran et des diagrammes, en présentations structurées. Ce processus vise à simplifier l'analyse manuelle et la création de diapositives, nécessitant des images claires et de haute qualité pour des résultats optimaux.

26