← heapsort-ai

Bioinformatics

7 items

RESEARCHarXiv CS.LG·12d atrás

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill introduz uma estrutura de destilação de conhecimento para aprimorar a anotação taxonômica metagenômica, superando as limitações dos métodos tradicionais. Ele utiliza o GenomeOcean, um modelo de fundação genômico de 500 milhões de parâmetros, como rede professora para gerar rótulos suaves limpos e melhorar o desempenho da classificação.

28
RESEARCHarXiv CS.LG·23d atrás

Reading the Cell, Designing the Cure: Perturbation-Conditioned Molecular Diffusion for Function-Oriented Drug Design

Esta pesquisa introduz o Design de Medicamentos Baseado em Transcriptoma (TBDD) como um problema inverso generativo para projetar moléculas de medicamentos condicionadas por transições de estado transcriptômicas desejadas. Propõe "ACURE" (A Cellular Response Engine), uma estrutura de difusão guiada por transcriptoma de múltiplas resoluções, para abordar os desafios dessa tarefa complexa.

27
RESEARCHarXiv CS.LG·28d atrás

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Esta pesquisa propõe uma estrutura para interpretar representações de modelos de linguagem proteica, projetando-as em grafos de contato proteicos e aplicando SoftBlobGIN, uma Rede de Isomorfismo de Grafo. Este método realiza a passagem de mensagens ciente da estrutura para aprender subestruturas funcionais, alcançando 92,8% de precisão na classificação de enzimas e fornecendo explicações estruturais auditáveis.

27
RESEARCHarXiv CS.AI·12d atrás

Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes

Agentes baseados em LLMs de fronteira podem superar o gargalo da curadoria de ontologias para fenótipos naturais, um processo que depende fortemente de especialistas humanos. Isso pode aumentar significativamente a escalabilidade da anotação de descrições fenotípicas de texto livre, essencial para a integração de dados morfológicos comparativos.

27
RESEARCHarXiv CS.AI·22/04/2026

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Este artigo aborda o problema da Subsequência Comum Mais Longa com Lacunas Variáveis (VGLCS), uma generalização do LCS com restrições de lacunas flexíveis, relevante para a comparação de sequências moleculares e análise de séries temporais. É proposto um framework de busca baseado em grafos de estado com uma estratégia de busca em feixe iterativa para gerenciar a explosão combinatória e encontrar soluções de alta qualidade.

26