← heapsort-ai

large language models

262 items

RESEARCH↑ trendingHacker News (AI)·vor 11T

AI Propaganda factories with language models

Der Artikel erörtert das Potenzial von KI, insbesondere großen Sprachmodellen, die zur Schaffung von 'Propaganda-Fabriken' genutzt werden könnten. Er untersucht, wie diese Technologien die Erzeugung irreführender Inhalte automatisieren und skalieren könnten, was erhebliche Herausforderungen für die Informationsintegrität und den öffentlichen Diskurs darstellt.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

How to Distill from 100B+ to <4B Models
42
ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Der Inhalt hinterfragt, warum große KI-Labore weit verbreitete Modelle wie GPT und Claude dominieren, obwohl viele Open-Source-Modelle ähnlichen Umfangs vorab trainiert wurden. Der Autor vermutet, dass Reinforcement Learning from Human Feedback (RLHF) der Schlüssel zur Überlegenheit dieser Modelle ist und fragt, warum dies für kleinere Labore nicht zugänglicher sein sollte.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/13/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Ein 18-jähriger Indie-Entwickler skalierte ein reines Spiking Neural Network (SNN) von Grund auf zu 1,088 Milliarden Parametern für Sprachmodellierung und erreichte trotz allgemeiner Annahmen über vanishing gradients eine Verlustkonvergenz. Zu den Haupterkenntnissen gehören die Beibehaltung einer 93%igen Sparsamkeit und das unerwartete Auftauchen strukturell korrekter russischer Texte, obwohl das Experiment aus Budgetgründen abgebrochen wurde.

42
ARTICLEDEV.to AI·vor 1T

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Dieser Artikel stellt die Generative Engine Optimization (GEO) als neue Strategie für Unternehmen vor, um sicherzustellen, dass ihre Inhalte von LLMs wie ChatGPT, Perplexity und Gemini empfohlen werden. Dieser Wandel ist entscheidend, da Benutzer zunehmend sofortige, synthetisierte Antworten von konversationeller KI erwarten und sich von traditionellen Suchmaschinenergebnissen abwenden.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Ein Benutzer suchte Rat beim Kauf von High-End-KI-Hardware zum Ausführen großer Modelle wie Gemma4s und Qwen3.6s, wobei er Optionen zwischen einer Blackwell/RTX Pro 6000 96G GPU und einem Mac Studio M3 Ultra 256G abwog. Sie entschieden sich letztendlich für die Blackwell-Option, da diese eine überlegene Token-Verarbeitung und ein günstiges Angebot bot.

Hard freakin' decision..Blackwell 96G or Mac Studio 256G
39
ARTICLE↑ trendingReddit r/LocalLLaMA·5/6/2026

Bad news: Apple drops high-memory Mac Studio configs

Apple hat die hochspeicherigen Mac Studio-Konfigurationen stillschweigend eingestellt, wodurch die M3 Ultra-Version auf maximal 96 GB RAM und der Mac mini auf 48 GB begrenzt sind. Diese Änderung ist ein erheblicher Rückschlag für Benutzer, die große KI-Modelle lokal ausführen möchten, da High-Memory-Optionen für solche Aufgaben entscheidend waren.

Bad news: Apple drops high-memory Mac Studio configs
36
RESEARCHarXiv CS.LG·vor 1T

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusions-Large Language Models (dLLMs) leiden unter einem "Stabilitätsrückstand" aufgrund irreversibler Token-Commitments, ein Problem, das durch Fehler bei der Post-Training Quantization (PTQ) verschärft wird. FAIR-Calib schlägt ein zweistufiges PTQ-Framework vor, das ein Positions-Prior und schichtweise Kalibrierung nutzt, um fragile Grenzschichtzustände zu schützen und so die Quantisierung für dLLMs zu verbessern.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·4/27/2026

Anthropic's Claude remote uses GLM-4.7

Ein Benutzer hat festgestellt, dass die Claude-Code-Remote-Umgebung von Anthropic standardmäßig das GLM-4.7-Modell verwendet und kein proprietäres Anthropic-Modell. Diese Beobachtung wirft Fragen zur Nutzung von Open-Weight-Modellen durch KI-Unternehmen auf, die eigene Modelle besitzen.

35
RESEARCHarXiv CS.LG·4/14/2026

Human-like Working Memory Interference in Large Language Models

Diese Studie untersucht die Arbeitsgedächtnisbeschränkungen in großen Sprachmodellen (LLMs) und stellt fest, dass diese menschenähnliche Interferenzsignaturen aufweisen. Vortrainierte LLMs zeigen eine Leistungsverschlechterung bei erhöhter Gedächtnisbelastung und eine Verzerrung durch Rezenz, obwohl Transformer trainiert werden können, solche Aufgaben perfekt zu lösen.

35
RESEARCHarXiv CS.CL·vor 18T

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Dieses Papier stellt eine schema-basierte natürliche Sprachschnittstelle vor, die Generative KI verwendet, um Verkehrsicherheitsdaten zugänglicher zu machen. Ziel ist es, die Lücke für Praktiker zu schließen, indem Benutzeranfragen in strukturierte semantische Rahmen für eine zuverlässige Analyse übersetzt werden.

33
RESEARCHarXiv CS.LG·4/20/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia führt eine gradientengesteuerte Schichtauswahlmethode für das LoRA-Feintuning ein, die aufgabenrelevante Schichten identifiziert und Adapter asymmetrisch zuweist. Diese Methode erreicht eine Trainingsbeschleunigung von 15-28% über verschiedene große Sprachmodelle und Architekturen hinweg, bei weitgehend gleichbleibender Downstream-Leistung.

32
DOCOpenAI Blog·4/23/2026

GPT-5.5 System Card

Dieses Dokument mit dem Titel „GPT-5.5 System Card“ beschreibt wahrscheinlich die technischen Spezifikationen, Fähigkeiten und Einschränkungen des Sprachmodells GPT-5.5. Es dient als umfassendes Nachschlagewerk zum Verständnis der Funktionsweise und Nutzungsrichtlinien dieses fortschrittlichen KI-Systems.

32
ARTICLEDEV.to AI·4/22/2026

AI এখন শুধু একটা টুল না থেকে ধীরে ধীরে intelligence এর দিকে যাচ্ছে

Neueste Gerüchte im Silicon Valley drehen sich um Anthropic's Mythos, ein KI-Modell, das die Definition eines bloßen Werkzeugs überschreiten und sich Intelligenz annähern soll. Insider behaupten, Mythos könne komplexe Systeme tiefgehend analysieren, Softwarestrukturen verstehen und versteckte Schwachstellen erkennen, was weit über die Fähigkeiten herkömmlicher Sprachmodelle hinausgeht.

31