Bioinformatics

7 items

RESEARCHarXiv CS.LG·il y a 11j

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill propose un cadre de distillation des connaissances pour améliorer l'annotation taxonomique métagénomique, en surmontant les limites des méthodes traditionnelles. Il utilise GenomeOcean, un modèle de fondation génomique de 500 millions de paramètres, comme réseau enseignant pour générer des étiquettes douces propres et améliorer les performances de classification.

Genomics machine learning Foundation Models metagenomics

RESEARCHarXiv CS.LG·il y a 22j

Reading the Cell, Designing the Cure: Perturbation-Conditioned Molecular Diffusion for Function-Oriented Drug Design

Cette recherche introduit la Conception de Médicaments Basée sur le Transcriptome (TBDD) comme un problème inverse génératif pour concevoir des molécules de médicaments conditionnées par des transitions d'état transcriptomiques souhaitées. Elle propose "ACURE" (A Cellular Response Engine), un cadre de diffusion multi-résolution guidé par le transcriptome, pour relever les défis de cette tâche complexe.

AI in medicine genetics machine learning drug design

RESEARCHarXiv CS.LG·il y a 26j

scShapeBench: Discovering geometry from high dimensional scRNAseq data

scShapeBench est un outil destiné à découvrir la géométrie à partir de données scRNAseq de haute dimension, ce qui est crucial pour l'extraction d'informations biologiques. Il vise à automatiser la détection de formes, répondant à la dépendance actuelle de l'inspection visuelle par les bioinformaticiens.

single-cell RNAseq computational biology machine learning data analysis

RESEARCHarXiv CS.LG·il y a 27j

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Cette recherche propose un cadre pour interpréter les représentations des modèles de langage de protéines en les projetant sur des graphes de contact protéiques et en appliquant SoftBlobGIN, un Réseau d'Isomorphisme de Graphes. Cette méthode effectue un passage de messages sensible à la structure pour apprendre des sous-structures fonctionnelles, atteignant 92,8% de précision dans la classification des enzymes et fournissant des explications structurelles auditables.

AI interpretation protein language models structural biology Graph Neural Networks

RESEARCHarXiv CS.AI·il y a 11j

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Les agents basés sur des LLM de pointe peuvent surmonter le goulot d'étranglement de la curation d'ontologies pour les phénotypes naturels, un processus laborieux dépendant d'experts humains. Cela permettra d'améliorer considérablement la mise à l'échelle de l'annotation des descriptions de phénotypes en texte libre vers les termes d'ontologie, essentielle pour l'intégration des données morphologiques comparatives.

Phenotype Annotation NLP Research Methods LLM

RESEARCHHugging Face Blog·31/03/2026

Training mRNA Language Models Across 25 Species for $165

O título descreve uma pesquisa focada no treinamento de modelos de linguagem de mRNA em 25 espécies por um custo de apenas $165, indicando um avanço acessível na aplicação de IA na biologia molecular.

language models Genomics mRNA AI in biology

RESEARCHarXiv CS.AI·22/04/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Cet article s'attaque au problème de la plus longue sous-séquence commune à écarts variables (VGLCS), une généralisation du LCS avec des contraintes d'écart flexibles, pertinente pour la comparaison de séquences moléculaires et l'analyse de séries temporelles. Il propose un cadre de recherche basé sur des graphes d'état avec une stratégie de recherche par faisceau itérative pour gérer l'explosion combinatoire et trouver des solutions de haute qualité.

search algorithms Optimization Algorithms Time Series Analysis