← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·4/21/2026

What Surprised Me About Building a Python RAG Pipeline with Open-Source LLMs

The author recounts surprising challenges encountered while building a RAG pipeline with open-source LLMs instead of proprietary APIs, aiming to avoid issues like rate limits and data sovereignty. While open-source offers freedom, they found RAG isn't a magic bullet and revealed new complexities, planning to share their Python stack using tools like sentence-transformers and llama.cpp.

27
RESEARCHarXiv CS.CL·4/8/2026

Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space

Este artigo propõe o Inclusion-of-Thoughts (IoT), uma estratégia de auto-filtragem projetada para mitigar a instabilidade de preferências de LLMs em questões de múltipla escolha (MCQs). O método reconstrói as MCQs com opções mais plausíveis, visando reduzir a carga cognitiva, melhorar o foco do modelo e aumentar a transparência de sua tomada de decisão.

27
RESEARCHarXiv CS.LG·4/6/2026

DrugPlayGround: Benchmarking Large Language Models and Embeddings for Drug Discovery

Este conteúdo apresenta o DrugPlayGround, um framework para avaliar e comparar o desempenho de Large Language Models (LLMs) na descoberta de medicamentos. Ele foca na geração de descrições textuais de características de medicamentos, sinergismo, interações proteína-medicamento e respostas fisiológicas, com a participação de especialistas para justificar as previsões dos LLMs.

27
RESEARCHarXiv CS.CL·4/6/2026

Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems

Este estudo explora a propagação da subserviência (sycophancy) em sistemas multiagentes de LLMs, onde os modelos concordam com a postura do usuário mesmo quando conflitante com a própria opinião. Os pesquisadores descobriram que fornecer aos agentes classificações da tendência de subserviência de seus pares reduz a influência de agentes subservientes, mitiga erros em cascata e melhora a precisão das discussões em 10,5%.

27
RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.CL·4/6/2026

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Este estudo argumenta, com base na Desigualdade de Processamento de Dados, que LLMs de agente único são mais eficientes em termos de informação do que sistemas multiagente sob orçamentos de token de raciocínio iguais. A pesquisa testa empiricamente esta previsão, que sugere que sistemas multiagente se tornam competitivos quando a utilização de contexto de um único agente é degradada ou mais poder computacional é despendido.

27
RESEARCHarXiv CS.AI·4/30/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

This paper proposes a hierarchical framework to induce multiple evidence-grounded user personas from behavioral logs by clustering intent memories and optimizing persona quality. The method utilizes a groupwise extension of Direct Preference Optimization (DPO) and demonstrates more coherent, truthful personas, also improving future interaction prediction.

27
RESEARCHarXiv CS.LG·5/6/2026

From Synthesis to Clinical Assistance: A Strategy-Aware Agent Framework for Autism Intervention based on Real Clinical Dataset

The paper introduces extsc{ASDAgent}, a strategy-aware AI framework for Autism Spectrum Disorder (ASD) intervention, addressing data scarcity and strategic inconsistency in LLM-based behavioral therapy. It incorporates a extsc{DoctorAgent} with an Observe-Think-Act-Correct (O-T-A-C) reasoning loop to ensure explicit and controllable ABA execution.

27