← heapsort-ai

Data Extraction

27 items

RESEARCHarXiv CS.AI·18h atrás

Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

Este artigo de pesquisa explora a extração automática de dados de relatórios de ressonância magnética cerebral usando o modelo de linguagem de código aberto LLaMA 3.1. Ele avalia o desempenho do LLM na análise de relatórios holandeses de neurorradiologia, demonstrando alta performance zero-shot.

54
ARTICLEDEV.to AI·3d atrás

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Chatbots de IA padrão falham na conversão de tabelas financeiras complexas de imagens ou digitalizações, resultando em erros como colunas deslocadas e números alucinados. Isso ocorre porque LLMs multimodais gerais não conseguem preservar layouts de grade intrincados, exigindo pipelines especializados para extração de dados precisa e integridade.

31
ARTICLEDEV.to AI·4d atrás

I spent 3 days scraping a site until I tried LLMs for data extraction

O autor passou três dias tentando fazer scraping de um site com classes HTML que mudavam constantemente, usando ferramentas como BeautifulSoup e regex, mas sem sucesso. A solução veio ao usar Modelos de Linguagem (LLMs) para tratar a página como um bloco de texto, focando na compreensão do significado em vez de encontrar padrões, o que transformou o processo de extração de dados.

29
ARTICLEDEV.to AI·27d atrás

AI-Driven Data Extraction: A Paradigm Shift from Rule-Based Parsing to Semantic Understanding

Métodos tradicionais de extração de dados web baseados em regras são vulneráveis a mudanças dinâmicas e exigem alta manutenção. A chegada de modelos de linguagem grandes (LLMs) representa uma mudança de paradigma para a compreensão semântica, tornando a extração de dados mais robusta e eficiente ao focar no significado do conteúdo.

27
RESEARCHarXiv CS.CL·14d atrás

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Este estudo desenvolve uma estrutura baseada em grandes modelos de linguagem para extrair e preservar divulgações de segmentos, incluindo informações aninhadas, diretamente de documentos 10-K. Além disso, um sistema de recuperação aprimorado é projetado para apoiar a comparabilidade entre múltiplos relatórios.

27