Foundation Models

24 items

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 25d

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview es un modelo de fundación multimodal científico eficiente de 35B que logra un rendimiento comparable al de modelos de trillones de parámetros al explorar el escalado de tareas y el entrenamiento de cadena completa. Se destaca en cientos de tareas científicas profesionales, manteniendo un fuerte razonamiento general, comprensión multimodal y capacidades de agente.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

RESEARCH↑ trendingReddit r/MachineLearning·hace 26d

Continual Harness: Online Adaptation for Self-Improving Foundation Agents [R]

El artículo presenta "Continual Harness", un nuevo enfoque para la adaptación online en agentes de fundación auto-mejorables, formalizando el ciclo de refinamiento iterativo. Esta metodología permite el co-aprendizaje entre el modelo y el "harness", basándose en el éxito de sistemas como Gemini Plays Pokémon.

Online Adaptation self-improvement machine learning Foundation Models

Continual Harness: Online Adaptation for Self-Improving Foundation Agents [R]

RESEARCHarXiv CS.LG·hace 13d

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

Este trabajo presenta TSFMAudit, un método novedoso para auditar la contaminación de datos en Modelos Fundacionales de Series Temporales (TSFMs) durante el preentrenamiento. Detecta cuándo los conjuntos de datos de evaluación han sido expuestos indebidamente, lo que lleva a estimaciones de rendimiento demasiado optimistas, observando una adaptación inusualmente eficiente durante el ajuste fino. El estudio evalúa TSFMAudit en 6 TSFMs y 187 conjuntos de datos, abordando un desafío no estudiado previamente en la auditoría de contaminación de preentrenamiento para TSFMs.

time-series-models data-auditing security machine learning

RESEARCHarXiv CS.LG·hace 8d

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Este artículo presenta NumLeak, un marco para medir la recuperación memorizada en modelos fundacionales utilizando benchmarks numéricos públicos. Revela que los LLMs de primer nivel recuerdan datos financieros y económicos con alta fidelidad, sugiriendo que las evaluaciones pueden estar midiendo la memorización en lugar de la habilidad fuera de muestra.

LLM memorization Foundation Models data leakage Benchmarking

RESEARCHarXiv CS.CL·6/4/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation Foundation Models SocioEval

RESEARCHarXiv CS.AI·hace 4d

GITCO: Gated Inference-Time Context Optimization in TSFMs

Este artículo presenta GITCO, un marco ligero para la optimización del contexto en tiempo de inferencia que mejora la precisión de los Modelos Fundacionales de Series Temporales (TSFMs) basados en parches. Identifica y suprime selectivamente parches dañinos sin actualizar los pesos del modelo, logrando una reducción del +1,95% en el MASE en TimesFM 2.5.

forecasting Optimization machine learning Foundation Models

RESEARCHarXiv CS.LG·hace 25d

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.LG·hace 11d

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill introduce un marco de destilación de conocimiento para mejorar la anotación taxonómica metagenómica, abordando las limitaciones de los métodos tradicionales. Utiliza GenomeOcean, un modelo fundacional genómico de 500 millones de parámetros, como red de enseñanza para generar etiquetas blandas limpias y optimizar el rendimiento de la clasificación.

Genomics machine learning Foundation Models metagenomics

ARTICLEDEV.to AI·hace 29d

White Paper FM v Public API

El artículo compara el "white paper" de los modelos de fundación de Apple con la superficie real de la API, destacando una discrepancia significativa entre las capacidades anunciadas y las funcionalidades expuestas. El autor observa que el "white paper" describe un sistema multimodal ambicioso, mientras que la API expone solo una fracción de esa funcionalidad.

Apple AI models Foundation Models API

RESEARCHarXiv CS.CL·13/4/2026

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Esta investigación examina cómo la mitigación de sesgos remodela el espacio de incrustación de modelos de fundación, como BERT y Llama2. Los hallazgos muestran que la mitigación de sesgos reduce las disparidades de género-ocupación en el espacio de incrustación, llevando a representaciones internas más neutrales y validando el análisis de incrustación como una herramienta útil para métodos de desvío.

BERT Bias Mitigation Foundation Models representational analysis

RESEARCHarXiv CS.LG·hace 28d

Do Foundation Model Embeddings Improve Cross-Country Crop Yield Generalisation? A Leave-One-Country-Out Evaluation in Sub-Saharan Africa

Este artículo evalúa si los embeddings de modelos de base geoespaciales mejoran las predicciones transnacionales de rendimiento de maíz en el África subsahariana. Concluye que, si bien las predicciones dentro del país son moderadas, todos los conjuntos de características, incluidos los embeddings de modelos de base, tienen un rendimiento deficiente en las pruebas transnacionales, lo que indica una brecha de generalización significativa.

Geospatial AI Sub-Saharan Africa machine learning Foundation Models

RESEARCHDEV.to AI·hace 13d

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillationand Agentic RL

Esta investigación presenta Chain-of-Agents, un marco de extremo a extremo para el desarrollo de modelos de base de agentes. Aprovecha la destilación multiagente y el aprendizaje por refuerzo agéntico para mejorar las capacidades de los agentes de IA.

AI models reinforcement learning machine learning Foundation Models

DOCHugging Face Blog·hace 29d

Building Blocks for Foundation Model Training and Inference on AWS

El contenido trata sobre los bloques de construcción esenciales para el entrenamiento e inferencia de modelos de fundación en la plataforma AWS. Explora los componentes necesarios para implementar y operar estos modelos.

AI training machine learning Foundation Models AWS

NEWSMIT Tech Review AI·hace 22d

What to expect from Google this week

La historia original de The Algorithm aborda las expectativas para la conferencia anual de desarrolladores Google I/O. El evento comienza con Google en un claro tercer lugar en la carrera de los modelos de base.

Developer Conference Foundation Models Google I/O AI

RESEARCHarXiv CS.LG·13/4/2026

Distilling Genomic Models for Efficient mRNA Representation Learning via Embedding Matching

Este artículo introduce un marco de destilación para hacer más eficientes los grandes modelos de fundación genómicos para el aprendizaje de representación de mRNA. Al reducir el tamaño del modelo en 200 veces mediante destilación a nivel de embeddings, el modelo más pequeño logra un rendimiento de vanguardia en tareas relacionadas con el mRNA, destacando una estrategia efectiva para la IA biológica escalable.

mRNA Foundation Models Model Distillation representation learning

RESEARCHarXiv CS.LG·27/4/2026

Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models

Esta investigación presenta una metodología multicapa para acelerar modelos de fundación multimodales (MFMs) mediante el co-diseño de hardware y software. Emplea técnicas de optimización como la cuantificación de precisión mixta, la poda estructural y la decodificación especulativa para reducir los requisitos computacionales y de memoria.

Optimization multimodal AI AI acceleration Foundation Models

RESEARCHarXiv CS.LG·27/4/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi es un Modelo de Fundación Gráfica que mejora la eficiencia y la unificación de tareas mediante un marco de entrenamiento basado en metaaprendizaje. Se preentrena en episodios de pocas muestras que reflejan la evaluación posterior, abordando las limitaciones de los métodos tradicionales y logrando un rendimiento competitivo.

Meta-Learning Model Alignment Graph Neural Networks Foundation Models

RESEARCHarXiv CS.LG·4/5/2026

AirFM-DDA: Air-Interface Foundation Model in the Delay-Doppler-Angle Domain for AI-Native 6G

AirFM-DDA introduce un Modelo Fundamental de Interfaz Aérea que opera en el dominio Retardo-Doppler-Ángulo (DDA) para tareas de capa física de 6G nativo de IA. Este modelo reparametrización la información de estado del canal desde el dominio espacio-tiempo-frecuencia para resolver explícitamente componentes de trayectos múltiples, superando la sobrecarga computacional de los mecanismos de atención global existentes.

AI-native networks Foundation Models Wireless Communication physical layer

RESEARCHarXiv CS.LG·hace 7d

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Este artículo propone FoLoRA, un marco de optimización que aborda la degradación de capacidades no objetivo durante el ajuste fino de modelos de base. Utiliza un cociente de Rayleigh generalizado para equilibrar la utilidad de la tarea y la penalización de olvido, guiando las actualizaciones para preservar el conocimiento de preentrenamiento.

Finetuning neural networks Optimization machine learning

RESEARCHarXiv CS.LG·hace 13d

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

AirCast-SR introduce un modelo fundamental para la superresolución atmosférica, reduciendo la escala de pronósticos meteorológicos globales de IA de 28 km a 1 km de resolución. Produce pronósticos de 67 horas para ocho variables de superficie, abordando las limitaciones computacionales de los modelos NWP tradicionales.

Foundation Models AI super-resolution weather prediction