← heapsort-ai

Bioinformatics

7 items

RESEARCHarXiv CS.LG·vor 12T

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill führt ein Framework zur Wissensdestillation ein, um die metagenomische taxonomische Annotation zu verbessern und die Einschränkungen traditioneller Methoden zu überwinden. Es nutzt GenomeOcean, ein 500 Millionen Parameter umfassendes genomisches Grundlagenmodell, als Lehrernetzwerk, um saubere weiche Labels zu generieren und die Klassifikationsleistung zu steigern.

28
RESEARCHarXiv CS.LG·vor 23T

Reading the Cell, Designing the Cure: Perturbation-Conditioned Molecular Diffusion for Function-Oriented Drug Design

Diese Forschung stellt das Transkriptom-basierte Wirkstoffdesign (TBDD) als ein generatives inverses Problem vor, um Wirkstoffmoleküle basierend auf gewünschten transkriptomischen Zustandsübergängen zu entwerfen. Es wird "ACURE" (A Cellular Response Engine) vorgeschlagen, ein multiresolutionäres transkriptomgesteuertes Diffusionsframework, um die Herausforderungen dieser komplexen Aufgabe zu bewältigen.

27
RESEARCHarXiv CS.LG·vor 28T

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Diese Forschung schlägt einen Rahmen vor, um Repräsentationen von Protein-Sprachmodellen zu interpretieren, indem sie auf Proteinkontaktgraphen projiziert und SoftBlobGIN, ein Graphen-Isomorphismus-Netzwerk, angewendet wird. Diese Methode führt eine strukturbewusste Nachrichtenübertragung durch, um funktionale Unterstrukturen zu lernen, erreicht eine Genauigkeit von 92,8% bei der Enzymklassifizierung und liefert nachvollziehbare strukturelle Erklärungen.

27
RESEARCHarXiv CS.AI·vor 12T

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Fortschrittliche LLM-basierte Agenten können den Engpass bei der Ontologiekuration für natürliche Phänotypen überwinden, einen arbeitsintensiven Prozess, der von menschlichen Experten abhängt. Dies könnte die Skalierbarkeit der Annotation von Freitext-Phänotypbeschreibungen zu Ontologiebegriffen erheblich verbessern, was für die Integration vergleichender morphologischer Daten unerlässlich ist.

27
RESEARCHarXiv CS.AI·4/22/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Dieses Papier behandelt das Problem der Variable Gapped Longest Common Subsequence (VGLCS), eine Verallgemeinerung des LCS-Problems mit flexiblen Lückenbeschränkungen, relevant für den Vergleich molekularer Sequenzen und die Zeitreihenanalyse. Es wird ein Suchrahmenwerk basierend auf einer wurzelbasierten Zustandsgraphendarstellung und einer iterativen Beam-Search-Strategie vorgeschlagen, um die kombinatorische Explosion zu bewältigen und qualitativ hochwertige Lösungen zu finden.

26