← heapsort-ai

deep learning

263 items

RESEARCHarXiv CS.LG·30/04/2026

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

RaMP est un framework de dispatch conscient du routage qui optimise l'inférence Mixture-of-Experts (MoE), compensant une perte de débit de 10-70% dans les systèmes actuels. Il utilise une analyse des régions de performance et un modèle de coût d'onde pour sélectionner les configurations de noyau optimales, atteignant jusqu'à 1.22x d'accélération et seulement 0.93% de regret moyen.

27
RESEARCHarXiv CS.AI·06/05/2026

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

Cet article présente le Virtual Speech Therapist (VST), une plateforme basée sur des agents intelligents qui rationalise l'évaluation du bégaiement et fournit une thérapie personnalisée via des flux de travail pilotés par l'IA. Le VST intègre la classification du bégaiement par apprentissage profond et le raisonnement de LLM multi-agents pour générer et affiner des plans de thérapie individualisés, avec un agent critique assurant la sécurité clinique et l'adhérence aux directives.

27
RESEARCHarXiv CS.AI·08/04/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

27
RESEARCHarXiv CS.LG·06/04/2026

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Este estudo aborda o alto custo computacional da modelagem de fluxo de água subterrânea em meios fraturados usando simulações DFM. Para otimizar o processo, propõe-se um modelo substituto baseado em rede neural convolucional 3D para prever a condutividade hidráulica equivalente, permitindo um framework Monte Carlo multinível mais eficiente.

27
RESEARCHarXiv CS.CL·06/04/2026

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

CIPHER é um modelo baseado em Conformer para inferência de fonemas a partir de EEG de alta densidade, visando decodificar informações de fala do cérebro. Embora alcance alta performance em tarefas binárias, mostra desempenho limitado na discriminação de fonemas de 11 classes, sendo posicionado como um estudo de benchmark e comparação de características.

27
RESEARCHarXiv CS.CL·il y a 28j

jina-embeddings-v5-omni: Geometry-preserving Embeddings via Locked Aligned Towers

Ce travail présente GELATO, une nouvelle approche pour les modèles d'embedding multimodaux qui étend les architectures de type VLM. Il en résulte la suite jina-embeddings-v5-omni, qui encode efficacement texte, image, audio et vidéo dans un espace d'embedding sémantique unique en gelant les modèles de texte principaux et en entraînant uniquement les composants de connexion.

27
ARTICLEDEV.to AI·22/04/2026

Blog 2: Momentum-Based Optimizers

Le contenu du blog aborde les optimiseurs basés sur l'élan, explorant leur fonction et leur importance pour accélérer l'entraînement des modèles d'apprentissage automatique. Il détaille comment ces algorithmes améliorent la convergence et l'efficacité des réseaux neuronaux.

27
RESEARCHarXiv CS.LG·17/04/2026

The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery

Cet article de recherche présente un Coordinateur de Gradient Sensible à l'Énergie pour aborder l'"enchevêtrement de gradient", un défi majeur dans la Découverte Généralisée de Catégories Robuste. La méthode proposée vise à améliorer la robustesse et les performances des modèles d'IA pour identifier de nouvelles catégories.

27