← heapsort-ai

NLP

124 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Ce contenu traite du problème de la pénalisation des différences de formatage par le Taux d'Erreur de Mots (WER) dans les évaluations STT, entraînant des scores imprécis. Pour résoudre ce problème, la bibliothèque open-source `gladia-normalization` a été lancée, qui normalise les transcriptions avant le calcul du WER, garantissant une évaluation plus juste de la qualité de la reconnaissance.

42
RESEARCHarXiv CS.CL·il y a 18j

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Cet article introduit PromptNCE, une méthode pour estimer l'information mutuelle ponctuelle (PMI) en utilisant uniquement des LLM et des invites d'estimation contrastive, contournant le besoin de critiques spécifiques à la tâche. Il présente un benchmark avec des PMI dérivés de l'humain et montre que PromptNCE atteint une corrélation de Spearman allant jusqu'à 0,82.

33
RESEARCHarXiv CS.CL·16/04/2026

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Cet article présente un pipeline pratique pour transformer des corpus de texte en signaux sémantiques quantitatifs, en utilisant des embeddings, une évaluation basée sur les logprobs et la réduction du bruit. L'étude de cas applique six dimensions sémantiques à des articles de presse portugais sur l'IA, soutenant des tâches d'ingénierie de l'IA telles que l'inspection et le suivi de corpus.

30
RESEARCHDEV.to AI·13/04/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se concentre sur l'intégration d'outils externes avec des modèles de langage volumineux pour augmenter leurs capacités. Cette approche permet aux LLM d'effectuer des tâches complexes plus efficacement en tirant parti de fonctions spécialisées et d'interactions réelles.

30
ARTICLEDEV.to AI·15/04/2026

How We Built 1,000+ AI Personas for Telegram Comments

Cet article décrit la construction d'un système d'IA générant plus de 1 000 personas uniques pour les commentaires Telegram, après l'échec d'équipes humaines. Il détaille la création de personnalités persistantes au comportement naturel et la surmontée des défis techniques tels que les systèmes anti-bot et la modération du spam par IA.

30
RESEARCHarXiv CS.AI·07/04/2026

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

TRACE-KG é um framework multimodal que constrói grafos de conhecimento enriquecidos por contexto e um esquema induzido, superando limitações de métodos baseados em ontologias ou esquemas livres. Ele organiza entidades e relações usando um esquema guiado por dados, mantendo a rastreabilidade e capturando relações condicionais.

29
RESEARCHarXiv CS.CL·09/04/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

29
RESEARCHarXiv CS.CL·il y a 7j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

29
RESEARCHarXiv CS.AI·il y a 4j

Synthetic Contrastive Reasoning for Multi-Table Q&A

Cet article présente un ensemble de données synthétique de traces de raisonnement contrastif pour la question-réponse multi-tables (MMQA), visant à fournir une supervision de raisonnement absente des ressources existantes. Des LLM open-source, affinés avec l'Optimisation de Préférence Contrastive (CPO) à l'aide de cet ensemble de données, ont montré des améliorations significatives de performance.

28