← heapsort-ai

Bioinformatics

7 items

RESEARCHarXiv CS.LG·il y a 11j

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill propose un cadre de distillation des connaissances pour améliorer l'annotation taxonomique métagénomique, en surmontant les limites des méthodes traditionnelles. Il utilise GenomeOcean, un modèle de fondation génomique de 500 millions de paramètres, comme réseau enseignant pour générer des étiquettes douces propres et améliorer les performances de classification.

28
RESEARCHarXiv CS.LG·il y a 22j

Reading the Cell, Designing the Cure: Perturbation-Conditioned Molecular Diffusion for Function-Oriented Drug Design

Cette recherche introduit la Conception de Médicaments Basée sur le Transcriptome (TBDD) comme un problème inverse génératif pour concevoir des molécules de médicaments conditionnées par des transitions d'état transcriptomiques souhaitées. Elle propose "ACURE" (A Cellular Response Engine), un cadre de diffusion multi-résolution guidé par le transcriptome, pour relever les défis de cette tâche complexe.

27
RESEARCHarXiv CS.LG·il y a 27j

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Cette recherche propose un cadre pour interpréter les représentations des modèles de langage de protéines en les projetant sur des graphes de contact protéiques et en appliquant SoftBlobGIN, un Réseau d'Isomorphisme de Graphes. Cette méthode effectue un passage de messages sensible à la structure pour apprendre des sous-structures fonctionnelles, atteignant 92,8% de précision dans la classification des enzymes et fournissant des explications structurelles auditables.

27
RESEARCHarXiv CS.AI·il y a 11j

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Les agents basés sur des LLM de pointe peuvent surmonter le goulot d'étranglement de la curation d'ontologies pour les phénotypes naturels, un processus laborieux dépendant d'experts humains. Cela permettra d'améliorer considérablement la mise à l'échelle de l'annotation des descriptions de phénotypes en texte libre vers les termes d'ontologie, essentielle pour l'intégration des données morphologiques comparatives.

27
RESEARCHarXiv CS.AI·22/04/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Cet article s'attaque au problème de la plus longue sous-séquence commune à écarts variables (VGLCS), une généralisation du LCS avec des contraintes d'écart flexibles, pertinente pour la comparaison de séquences moléculaires et l'analyse de séries temporelles. Il propose un cadre de recherche basé sur des graphes d'état avec une stratégie de recherche par faisceau itérative pour gérer l'explosion combinatoire et trouver des solutions de haute qualité.

26