← heapsort-ai

Bioinformatics

7 items

RESEARCHarXiv CS.LG·hace 11d

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill introduce un marco de destilación de conocimiento para mejorar la anotación taxonómica metagenómica, abordando las limitaciones de los métodos tradicionales. Utiliza GenomeOcean, un modelo fundacional genómico de 500 millones de parámetros, como red de enseñanza para generar etiquetas blandas limpias y optimizar el rendimiento de la clasificación.

28
RESEARCHarXiv CS.LG·hace 22d

Reading the Cell, Designing the Cure: Perturbation-Conditioned Molecular Diffusion for Function-Oriented Drug Design

Esta investigación introduce el Diseño de Fármacos Basado en Transcriptoma (TBDD) como un problema inverso generativo para diseñar moléculas de fármacos condicionadas por transiciones de estado transcriptómicas deseadas. Propone "ACURE" (A Cellular Response Engine), un marco de difusión guiado por transcriptoma de resolución múltiple, para abordar los desafíos de esta tarea compleja.

27
RESEARCHarXiv CS.LG·hace 27d

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Esta investigación propone un marco para interpretar representaciones de modelos de lenguaje de proteínas, proyectándolas en grafos de contacto proteicos y aplicando SoftBlobGIN, una Red de Isomorfismo de Grafos. Este método realiza un paso de mensajes consciente de la estructura para aprender subestructuras funcionales, logrando un 92,8% de precisión en la clasificación de enzimas y proporcionando explicaciones estructurales auditables.

27
RESEARCHarXiv CS.AI·hace 11d

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Agentes basados en LLM de vanguardia pueden superar el cuello de botella en la curación de ontologías para fenotipos naturales, un proceso que consume mucho tiempo y depende de expertos humanos. Esto escalará la anotación de descripciones de fenotipos de texto libre a términos de ontología, crucial para la integración de datos morfológicos comparativos.

27
RESEARCHarXiv CS.AI·22/4/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Este artículo trata el problema de la Subsecuencia Común Más Larga con Brechas Variables (VGLCS), una generalización del LCS con restricciones de brechas flexibles, relevante para la comparación de secuencias moleculares y el análisis de series temporales. Propone un marco de búsqueda basado en grafos de estado con una estrategia iterativa de búsqueda por haces para controlar la explosión combinatoria y hallar soluciones de alta calidad.

26