Foundation Models

24 items

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 25T

internlm/Intern-S2-Preview · Hugging Face

Intern-S2-Preview ist ein effizientes wissenschaftliches multimodales Basismodell mit 35 Milliarden Parametern, das durch die Erforschung von Aufgabenskalierung und End-to-End-Training eine Leistung erzielt, die mit trillionen-Parameter-Modellen vergleichbar ist. Es zeichnet sich in Hunderten professioneller wissenschaftlicher Aufgaben aus und behält dabei starke allgemeine Denk-, multimodale Verständnis- und Agentenfähigkeiten bei.

AI models multimodal AI model training Foundation Models

internlm/Intern-S2-Preview · Hugging Face

RESEARCH↑ trendingReddit r/MachineLearning·vor 26T

Continual Harness: Online Adaptation for Self-Improving Foundation Agents [R]

Das Papier stellt „Continual Harness“ vor, einen neuen Ansatz zur Online-Anpassung selbstverbessernder Grundagenten, der den iterativen Verfeinerungszyklus formalisiert. Diese Methodik ermöglicht das gemeinsame Lernen von Modell und „Harness“ und baut auf dem Erfolg von Systemen wie Gemini Plays Pokémon auf.

Online Adaptation self-improvement machine learning Foundation Models

Continual Harness: Online Adaptation for Self-Improving Foundation Agents [R]

RESEARCHarXiv CS.LG·vor 13T

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

Diese Arbeit stellt TSFMAudit vor, eine neuartige Methode zur Überprüfung der Datenkontamination in Zeitreihen-Grundmodellen (TSFMs) während des Vortrainings. Sie erkennt, wenn Bewertungsdatensätze unzulässig exponiert wurden, was zu übermäßig optimistischen Leistungsschätzungen führt, indem sie eine ungewöhnlich effiziente Anpassung während des Fine-Tunings beobachtet. Die Studie bewertet TSFMAudit an 6 TSFMs und 187 Datensätzen und befasst sich mit einer bisher unerforschten Herausforderung bei der Auditierung von Vortrainingskontaminationen für TSFMs.

time-series-models data-auditing security machine learning

RESEARCHarXiv CS.LG·vor 8T

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Dieses Papier stellt NumLeak vor, ein Messrahmen zur Bewertung des auswendig gelernten Abrufs in Basismodellen mittels öffentlicher numerischer Benchmarks. Es zeigt, dass führende LLMs Finanz- und Wirtschaftsdaten mit hoher Genauigkeit abrufen, was darauf hindeutet, dass Bewertungen möglicherweise das Auswendiglernen statt echter Fähigkeiten messen.

LLM memorization Foundation Models data leakage Benchmarking

RESEARCHarXiv CS.CL·4/6/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation Foundation Models SocioEval

RESEARCHarXiv CS.AI·vor 4T

GITCO: Gated Inference-Time Context Optimization in TSFMs

Dieser Artikel stellt GITCO vor, ein leichtgewichtiges Framework zur Kontextoptimierung während der Inferenzzeit, das die Genauigkeit von patch-basierten Zeitreihen-Grundlagenmodellen (TSFMs) verbessert. Es identifiziert und unterdrückt schädliche Patches ohne Modellgewichtsaktualisierungen und erreicht eine MASE-Reduzierung von +1,95% bei TimesFM 2.5.

forecasting Optimization machine learning Foundation Models

RESEARCHarXiv CS.LG·vor 25T

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.LG·vor 11T

TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models

TaxDistill führt ein Framework zur Wissensdestillation ein, um die metagenomische taxonomische Annotation zu verbessern und die Einschränkungen traditioneller Methoden zu überwinden. Es nutzt GenomeOcean, ein 500 Millionen Parameter umfassendes genomisches Grundlagenmodell, als Lehrernetzwerk, um saubere weiche Labels zu generieren und die Klassifikationsleistung zu steigern.

Genomics machine learning Foundation Models metagenomics

ARTICLEDEV.to AI·vor 29T

White Paper FM v Public API

Dieser Artikel vergleicht das Whitepaper zu Apples Foundation Models mit der tatsächlichen API-Oberfläche und hebt eine erhebliche Diskrepanz zwischen beworbenen Fähigkeiten und exponierten Funktionalitäten hervor. Der Autor stellt fest, dass das Whitepaper ein ehrgeiziges multimodales System beschreibt, während die API nur einen Bruchteil dieser Funktionalität freilegt.

Apple AI models Foundation Models API

RESEARCHarXiv CS.CL·4/13/2026

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Diese Forschung untersucht, wie Bias-Minderung den Einbettungsraum von Encoder-Only- und Decoder-Only-Grundlagenmodellen wie BERT und Llama2 umgestaltet. Die Ergebnisse zeigen, dass Bias-Minderung Geschlechter-Berufs-Disparitäten im Einbettungsraum reduziert, was zu neutraleren internen Repräsentationen führt und die Einbettungsanalyse als wertvolles Validierungswerkzeug zur Entzerrung bestätigt.

BERT Bias Mitigation Foundation Models representational analysis

RESEARCHarXiv CS.LG·vor 28T

Do Foundation Model Embeddings Improve Cross-Country Crop Yield Generalisation? A Leave-One-Country-Out Evaluation in Sub-Saharan Africa

Diese Arbeit untersucht, ob geospatiale Fundamentmodell-Embeddings die länderübergreifenden Maisertragsvorhersagen in Subsahara-Afrika verbessern. Sie zeigt, dass, obwohl die Vorhersagen innerhalb eines Landes moderat sind, alle Feature-Sets, einschließlich der Fundamentmodell-Embeddings, bei länderübergreifenden Tests schlecht abschneiden, was eine erhebliche Generalisierungs-Lücke aufzeigt.

Geospatial AI Sub-Saharan Africa machine learning Foundation Models

RESEARCHDEV.to AI·vor 13T

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillationand Agentic RL

Diese Forschung stellt Chain-of-Agents vor, ein End-to-End-Framework zur Entwicklung von Agenten-Grundlagenmodellen. Es nutzt Multi-Agenten-Destillation und agentisches Reinforcement Learning, um die Fähigkeiten von KI-Agenten zu verbessern.

AI models reinforcement learning machine learning Foundation Models

DOCHugging Face Blog·vor 29T

Building Blocks for Foundation Model Training and Inference on AWS

Der Inhalt behandelt die wesentlichen Bausteine für das Training und die Inferenz von Fundamentmodellen auf der AWS-Plattform. Er untersucht die notwendigen Komponenten zur Implementierung und zum Betrieb dieser Modelle.

AI training machine learning Foundation Models AWS

NEWSMIT Tech Review AI·vor 22T

What to expect from Google this week

Die Originalgeschichte von The Algorithm behandelt die Erwartungen an Googles jährliche Entwicklerkonferenz I/O. Die Veranstaltung beginnt mit Google auf einem klaren dritten Platz im Rennen um die Grundlagenmodelle.

Developer Conference Foundation Models Google I/O AI

RESEARCHarXiv CS.LG·4/13/2026

Distilling Genomic Models for Efficient mRNA Representation Learning via Embedding Matching

Dieses Papier stellt ein Destillations-Framework vor, um große genomische Grundlagenmodelle für das mRNA-Repräsentationslernen effizienter zu gestalten und die Modellgröße um das 200-fache zu reduzieren. Durch die Verwendung von Embedding-Level-Destillation erreicht das kleinere Modell bei mRNA-bezogenen Aufgaben eine hochmoderne Leistung und demonstriert damit eine effektive Strategie für skalierbare biologische KI.

mRNA Foundation Models Model Distillation representation learning

RESEARCHarXiv CS.LG·4/27/2026

Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models

Diese Forschung stellt eine vielschichtige Methodik zur Beschleunigung multimodaler Fundamentmodelle (MFMs) durch Hardware- und Software-Co-Design vor. Sie nutzt Optimierungstechniken wie hierarchiebewusste Mixed-Precision-Quantisierung, strukturelles Pruning und spekulatives Decoding, um Rechen- und Speicheranforderungen zu reduzieren.

Optimization multimodal AI AI acceleration Foundation Models

RESEARCHarXiv CS.LG·4/27/2026

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi ist ein Graph Foundation Model, das Effizienz und Aufgabenvereinheitlichung durch ein Meta-Learning-Framework verbessert. Es wird mit Few-Shot-Episoden vorab trainiert, die das nachgeschaltete Evaluierungsprotokoll widerspiegeln, und überwindet so die Einschränkungen herkömmlicher Methoden, um eine wettbewerbsfähige Leistung zu erzielen.

Meta-Learning Model Alignment Graph Neural Networks Foundation Models

RESEARCHarXiv CS.LG·5/4/2026

AirFM-DDA: Air-Interface Foundation Model in the Delay-Doppler-Angle Domain for AI-Native 6G

AirFM-DDA stellt ein Luftschnittstellen-Grundlagenmodell vor, das im Verzögerungs-Doppler-Winkel (DDA)-Bereich für KI-native 6G-Physikschichtaufgaben arbeitet. Dieses Modell reparametrisiert Kanalzustandsinformationen aus dem Raum-Zeit-Frequenz-Bereich, um Mehrwegkomponenten explizit aufzulösen und so den Rechenaufwand bestehender globaler Aufmerksamkeitsmechanismen zu überwinden.

AI-native networks Foundation Models Wireless Communication physical layer

RESEARCHarXiv CS.LG·vor 7T

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

Dieses Papier stellt FoLoRA vor, ein Optimierungsframework, das die Verschlechterung nicht-zielgerichteter Fähigkeiten beim Feintuning von Basismodellen adressiert. Es verwendet einen verallgemeinerten Rayleigh-Quotienten, um den Nutzen der Aufgabe und die Vergessensstrafe auszubalancieren und so Updates zur Erhaltung des Vortrainingswissens zu steuern.

Finetuning neural networks Optimization machine learning

RESEARCHarXiv CS.LG·vor 13T

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

AirCast-SR stellt ein Fundamentmodell für atmosphärische Superauflösung vor, das globale KI-Wettervorhersagen von 28 km auf 1 km Auflösung herunterskaliert. Es erstellt 67-Stunden-Prognosen für acht Oberflächenvariablen und überwindet damit die rechnerischen Einschränkungen traditioneller numerischer Wettervorhersagemodelle.

Foundation Models AI super-resolution weather prediction