large language models

262 items

RESEARCH↑ trendingHacker News (AI)·vor 11T

AI Propaganda factories with language models

Der Artikel erörtert das Potenzial von KI, insbesondere großen Sprachmodellen, die zur Schaffung von 'Propaganda-Fabriken' genutzt werden könnten. Er untersucht, wie diese Technologien die Erzeugung irreführender Inhalte automatisieren und skalieren könnten, was erhebliche Herausforderungen für die Informationsintegrität und den öffentlichen Diskurs darstellt.

Societal impact propaganda AI ethics large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

self-correction AI training Benchmarking code generation

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

Model Compression LLMs Model Distillation AI Efficiency

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Der Inhalt hinterfragt, warum große KI-Labore weit verbreitete Modelle wie GPT und Claude dominieren, obwohl viele Open-Source-Modelle ähnlichen Umfangs vorab trainiert wurden. Der Autor vermutet, dass Reinforcement Learning from Human Feedback (RLHF) der Schlüssel zur Überlegenheit dieser Modelle ist und fragt, warum dies für kleinere Labore nicht zugänglicher sein sollte.

open-source AI RLHF AI industry large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Der Titel beschreibt eine beeindruckende Optimierung für das Qwen3.6–27B-Modell, die 85 TPS und 125K Kontext mit Sehfähigkeiten auf einer einzelnen RTX 3090 erreicht. Dies ist eine bedeutende technische Leistung für den effizienten Einsatz von LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Ein 18-jähriger Indie-Entwickler skalierte ein reines Spiking Neural Network (SNN) von Grund auf zu 1,088 Milliarden Parametern für Sprachmodellierung und erreichte trotz allgemeiner Annahmen über vanishing gradients eine Verlustkonvergenz. Zu den Haupterkenntnissen gehören die Beibehaltung einer 93%igen Sparsamkeit und das unerwartete Auftauchen strukturell korrekter russischer Texte, obwohl das Experiment aus Budgetgründen abgebrochen wurde.

Spiking Neural Networks AI scaling large language models Language modeling

ARTICLEDEV.to AI·vor 1T

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Dieser Artikel stellt die Generative Engine Optimization (GEO) als neue Strategie für Unternehmen vor, um sicherzustellen, dass ihre Inhalte von LLMs wie ChatGPT, Perplexity und Gemini empfohlen werden. Dieser Wandel ist entscheidend, da Benutzer zunehmend sofortige, synthetisierte Antworten von konversationeller KI erwarten und sich von traditionellen Suchmaschinenergebnissen abwenden.

ChatGPT Generative Engine Optimization large language models SEO

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Ein Benutzer suchte Rat beim Kauf von High-End-KI-Hardware zum Ausführen großer Modelle wie Gemma4s und Qwen3.6s, wobei er Optionen zwischen einer Blackwell/RTX Pro 6000 96G GPU und einem Mac Studio M3 Ultra 256G abwog. Sie entschieden sich letztendlich für die Blackwell-Option, da diese eine überlegene Token-Verarbeitung und ein günstiges Angebot bot.

AI applications GPU AI hardware large language models

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

NEWS↑ trendingReddit r/LocalLLaMA·5/6/2026

ZAYA1-8B: Frontier intelligence density, trained on AMD

ZAYA1-8B, ein neues KI-Modell, das eine führende Intelligenzdichte aufweist, wurde angekündigt. Es wurde bemerkenswerterweise mit AMD-Hardware trainiert.

AI training AMD AI Model hardware

ZAYA1-8B: Frontier intelligence density, trained on AMD

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn’t

Der Autor, anfangs skeptisch, testete Qwen3.6-35B-A3B und stellte fest, dass es Programmierprobleme lösen konnte, die Qwen3.5-27B einfach nicht mehr bewältigen konnte. Dies geschah bei der Entwicklung einer maßgeschneiderten Budget-App, deren Vorgängerversion technische Schulden verursachte.

model performance App Development large language models coding assistance

RESEARCHDEV.to AI·4/22/2026

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with LargeLanguage Models

Diese Studie untersucht große Schlussfolgerungsmodelle, insbesondere die Anwendung verstärkter Schlussfolgerungstechniken auf große Sprachmodelle. Sie bietet einen umfassenden Überblick über aktuelle Methoden und Fortschritte zur Verbesserung der Schlussfolgerungsfähigkeiten von LLMs.

Survey reinforced learning AI Reasoning large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

DeepSeek-v4 has a comical 384K max output capability

Ein Nutzer ist schockiert über die 384K maximale Ausgabekapazität von DeepSeek-v4, das es schaffte, ein umfassendes Einzel-HTML-Web-OS in einer 100KB-Datei zu generieren. Diese beeindruckende Funktionalität zeigt das Potenzial des Modells für die Erstellung umfangreicher und komplexer Inhalte.

DeepSeek AI models code generation large language models

DeepSeek-v4 has a comical 384K max output capability

ARTICLE↑ trendingReddit r/LocalLLaMA·5/6/2026

Bad news: Apple drops high-memory Mac Studio configs

Apple hat die hochspeicherigen Mac Studio-Konfigurationen stillschweigend eingestellt, wodurch die M3 Ultra-Version auf maximal 96 GB RAM und der Mac mini auf 48 GB begrenzt sind. Diese Änderung ist ein erheblicher Rückschlag für Benutzer, die große KI-Modelle lokal ausführen möchten, da High-Memory-Optionen für solche Aufgaben entscheidend waren.

Apple Mac Studio Local AI hardware

Bad news: Apple drops high-memory Mac Studio configs

RESEARCHarXiv CS.LG·vor 1T

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusions-Large Language Models (dLLMs) leiden unter einem "Stabilitätsrückstand" aufgrund irreversibler Token-Commitments, ein Problem, das durch Fehler bei der Post-Training Quantization (PTQ) verschärft wird. FAIR-Calib schlägt ein zweistufiges PTQ-Framework vor, das ein Positions-Prior und schichtweise Kalibrierung nutzt, um fragile Grenzschichtzustände zu schützen und so die Quantisierung für dLLMs zu verbessern.

Diffusion Models post-training quantization quantization AI calibration

ARTICLE↑ trendingReddit r/LocalLLaMA·4/27/2026

Anthropic's Claude remote uses GLM-4.7

Ein Benutzer hat festgestellt, dass die Claude-Code-Remote-Umgebung von Anthropic standardmäßig das GLM-4.7-Modell verwendet und kein proprietäres Anthropic-Modell. Diese Beobachtung wirft Fragen zur Nutzung von Open-Weight-Modellen durch KI-Unternehmen auf, die eigene Modelle besitzen.

AI models Anthropic large language models

RESEARCHarXiv CS.LG·4/14/2026

Human-like Working Memory Interference in Large Language Models

Diese Studie untersucht die Arbeitsgedächtnisbeschränkungen in großen Sprachmodellen (LLMs) und stellt fest, dass diese menschenähnliche Interferenzsignaturen aufweisen. Vortrainierte LLMs zeigen eine Leistungsverschlechterung bei erhöhter Gedächtnisbelastung und eine Verzerrung durch Rezenz, obwohl Transformer trainiert werden können, solche Aufgaben perfekt zu lösen.

LLMs AI limitations Working Memory human cognition

RESEARCHarXiv CS.CL·vor 18T

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Dieses Papier stellt eine schema-basierte natürliche Sprachschnittstelle vor, die Generative KI verwendet, um Verkehrsicherheitsdaten zugänglicher zu machen. Ziel ist es, die Lücke für Praktiker zu schließen, indem Benutzeranfragen in strukturierte semantische Rahmen für eine zuverlässige Analyse übersetzt werden.

Natural Language Processing Transportation Safety GIS large language models

RESEARCHarXiv CS.LG·4/20/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia führt eine gradientengesteuerte Schichtauswahlmethode für das LoRA-Feintuning ein, die aufgabenrelevante Schichten identifiziert und Adapter asymmetrisch zuweist. Diese Methode erreicht eine Trainingsbeschleunigung von 15-28% über verschiedene große Sprachmodelle und Architekturen hinweg, bei weitgehend gleichbleibender Downstream-Leistung.

Parameter-efficient fine-tuning efficiency large language models Fine-tuning

DOCOpenAI Blog·4/23/2026

GPT-5.5 System Card

Dieses Dokument mit dem Titel „GPT-5.5 System Card“ beschreibt wahrscheinlich die technischen Spezifikationen, Fähigkeiten und Einschränkungen des Sprachmodells GPT-5.5. Es dient als umfassendes Nachschlagewerk zum Verständnis der Funktionsweise und Nutzungsrichtlinien dieses fortschrittlichen KI-Systems.

Model Evaluation large language models AI safety Generative AI

ARTICLEDEV.to AI·4/22/2026

AI এখন শুধু একটা টুল না থেকে ধীরে ধীরে intelligence এর দিকে যাচ্ছে

Neueste Gerüchte im Silicon Valley drehen sich um Anthropic's Mythos, ein KI-Modell, das die Definition eines bloßen Werkzeugs überschreiten und sich Intelligenz annähern soll. Insider behaupten, Mythos könne komplexe Systeme tiefgehend analysieren, Softwarestrukturen verstehen und versteckte Schwachstellen erkennen, was weit über die Fähigkeiten herkömmlicher Sprachmodelle hinausgeht.

AI capabilities Mythos Anthropic AI