← heapsort-ai

NLP

124 items

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Este contenido aborda el problema de que la Tasa de Error de Palabras (WER) penaliza las diferencias de formato en las evaluaciones STT, lo que lleva a puntuaciones imprecisas. Para resolverlo, se lanzó la biblioteca de código abierto `gladia-normalization`, que normaliza las transcripciones antes del cálculo del WER, asegurando una evaluación más justa de la calidad del reconocimiento.

42
RESEARCHarXiv CS.CL·hace 18d

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Este artículo presenta PromptNCE, un método para estimar la información mutua puntual (PMI) utilizando solo LLMs y prompts de estimación contrastiva, evitando la necesidad de críticos específicos de la tarea. Introduce un benchmark con PMI derivado de humanos y demuestra que PromptNCE logra una correlación de Spearman de hasta 0,82.

33
RESEARCHarXiv CS.CL·16/4/2026

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Este artículo presenta un pipeline práctico para transformar corpora de texto en señales semánticas cuantitativas, utilizando embeddings, evaluación basada en logprobs y reducción de ruido. El estudio de caso aplica seis dimensiones semánticas a noticias portuguesas sobre IA para apoyar tareas de ingeniería de IA como la inspección y el monitoreo de corpus.

30
RESEARCHDEV.to AI·13/4/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se enfoca en la integración de herramientas externas con grandes modelos de lenguaje para aumentar sus capacidades. Este enfoque permite a los LLMs realizar tareas complejas de manera más efectiva, aprovechando funciones especializadas e interacciones del mundo real.

30
ARTICLEDEV.to AI·15/4/2026

How We Built 1,000+ AI Personas for Telegram Comments

Este artículo describe la construcción de un sistema de IA que genera más de 1.000 personas únicas para comentarios en Telegram, después de que los equipos humanos fallaran. Detalla la creación de personalidades persistentes con comportamiento natural y la superación de desafíos técnicos como los sistemas anti-bot y la moderación de spam con IA.

30
RESEARCHarXiv CS.AI·7/4/2026

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

TRACE-KG é um framework multimodal que constrói grafos de conhecimento enriquecidos por contexto e um esquema induzido, superando limitações de métodos baseados em ontologias ou esquemas livres. Ele organiza entidades e relações usando um esquema guiado por dados, mantendo a rastreabilidade e capturando relações condicionais.

29
RESEARCHDEV.to AI·18/4/2026

Braille-D-FUMT8 vs CLIP / BERT / ImageBind: a Rigorous Information-Theoretic Comparison

Este artículo, una republicación del Rei-AIOS Paper 110, ofrece una rigurosa comparación informático-teórica entre la codificación Braille-Unicode × D-FUMT8 y esquemas de embedding multimodales como CLIP, BERT e ImageBind. La investigación explora la representación de 256 estados filosóficos en un solo carácter UTF-8 de 3 bytes.

29
RESEARCHarXiv CS.CL·9/4/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

29
RESEARCHarXiv CS.AI·hace 29d

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

Esta investigación propone una teoría de "estabilización de preferencia de respuesta finita" para identificar el momento en que la preferencia de respuesta de un modelo de lenguaje se vuelve estable. Muestra que esta estabilización ocurre a menudo antes de que la respuesta sea verbalizada, con un tiempo de anticipación notable.

29
RESEARCHarXiv CS.CL·hace 7d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

29
RESEARCHarXiv CS.AI·hace 4d

Synthetic Contrastive Reasoning for Multi-Table Q&A

El artículo introduce un conjunto de datos sintético de rastreo de razonamiento contrastivo para la respuesta a preguntas multi-tabla (MMQA), con el objetivo de proporcionar supervisión de razonamiento que falta en los recursos existentes. Los LLM de código abierto, ajustados con Optimización de Preferencia Contrastiva (CPO) utilizando este conjunto de datos, mostraron mejoras significativas en el rendimiento.

28