← heapsort-ai

LLM

611 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

llama.cpp is the linux of llm

The content posits that llama.cpp serves a role akin to Linux for Large Language Models, suggesting it's a foundational and open-source platform. It questions whether this analogy accurately describes llama.cpp's significance in the LLM ecosystem.

27
RESEARCHarXiv CS.CL·4/8/2026

Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation

Este artigo propõe OmniScore, uma família de métricas determinísticas desenvolvidas com modelos pequenos, para avaliar texto gerado de forma mais eficiente e reprodutível do que LLMs-juízes. Ele aproxima o comportamento de LLMs-juízes, preserva baixa latência e consistência, e suporta avaliações multidimensionais em 107 idiomas.

27
RESEARCHarXiv CS.AI·5/6/2026

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

This paper introduces the Virtual Speech Therapist (VST), an intelligent agent-based platform that streamlines stuttering assessment and delivers customized therapy through automated and adaptive AI-driven workflows. VST integrates deep learning for stuttering classification and multi-agent LLM reasoning to generate and refine individualized therapy plans, with a critic agent ensuring clinical safety and adherence to guidelines.

27
RESEARCHarXiv CS.AI·5/6/2026

Effect-Transparent Governance for AI Workflow Architectures: Semantic Preservation, Expressive Minimality, and Decidability Boundaries

This research presents a machine-checked formalization of AI workflow architectures with effect-transparent governance, demonstrating that governance can be imposed without losing computational expressivity. It defines a governance operator G for mediating effectful directives like memory access and LLM queries, proving seven key properties including governed Turing completeness and a decidability boundary.

27
RESEARCHarXiv CS.LG·5/6/2026

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. It formalizes rollout pipelines with a unified notation and introduces the Generate-Filter-Control-Replay (GFCR) lifecycle taxonomy, decomposing pipelines into four modular stages.

27
RESEARCHarXiv CS.AI·5/6/2026

A Knowledge-Driven LLM-Based Decision-Support System for Explainable Defect Analysis and Mitigation Guidance in Laser Powder Bed Fusion

This work introduces a knowledge-driven, LLM-based decision-support system for explainable defect diagnosis and mitigation guidance in manufacturing, using Laser Powder Bed Fusion (LPBF) as a case study. The system integrates an ontological knowledge base of 27 LPBF defect types, supporting natural language queries and literature-backed explanations. It also features a multimodal module for interpreting microscopic defect images.

27
RESEARCHarXiv CS.AI·4/8/2026

Uncertainty-Guided Latent Diagnostic Trajectory Learning for Sequential Clinical Diagnosis

Este artigo aborda o desafio do diagnóstico clínico sequencial sob incerteza, onde a maioria dos sistemas baseados em LLMs não modela a aquisição progressiva de evidências. Os autores propõem o framework Latent Diagnostic Trajectory Learning (LDTL), utilizando agentes LLM para planejamento e diagnóstico, tratando sequências de ações como caminhos latentes.

27
RESEARCHarXiv CS.CL·4/7/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27
RESEARCHarXiv CS.CL·4/7/2026

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

27
RESEARCHarXiv CS.CL·4/8/2026

This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA

Este estudo de pesquisa avalia a sensibilidade de Grandes Modelos de Linguagem (LLMs) à forma como as perguntas de pacientes são formuladas em cenários de QA médica. Usando um ambiente RAG controlado, a pesquisa investiga como o enquadramento (positivo vs. negativo) e o estilo da linguagem afetam a consistência das respostas dos LLMs.

27
RESEARCHarXiv CS.CL·4/6/2026

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

Este estudo aborda os riscos de LLMs no suporte à saúde mental, focando em usuários com psicose, onde podem reforçar delírios e alucinações. Propõe um método escalável de avaliação de segurança usando critérios clínicos e LLMs como avaliadores (LLM-as-a-Judge/Jury), demonstrando alinhamento com o consenso humano.

27
RESEARCHarXiv CS.LG·4/6/2026

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

27
RESEARCHarXiv CS.CL·4/6/2026

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

27