← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·vor 6T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

29
ARTICLEDEV.to AI·vor 4T

<think>

Dieser Artikel untersucht kostengünstige Alternativen zu GPT-4o und zeigt, wie andere KI-Modelle erhebliche Einsparungen für Entwickler bieten können. Er enthält direkte Kostenvergleiche und hebt Optionen wie DeepSeek V4 Flash und Qwen3-32B hervor.

29
DOCML Mastery·vor 5T

Using Scikit-LLM with Open-Source LLMs

Dieser Artikel zeigt, wie man eine Sprachaufgabe wie die Textklassifizierung durch die Integration lokal gehosteter Open-Source-Sprachmodelle (LLMs) durchführt. Er demonstriert, wie man dies kostenlos mit Ollama und der Python-Bibliothek Scikit-LLM mit Modellen wie Mistral, Gemma und Llama 3 erreicht.

Using Scikit-LLM with Open-Source LLMs
29
RESEARCHarXiv CS.CL·5/8/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp kompiliert LLM-Argumentation in symbolische Programmsynthesizer, um die Ineffizienz und Unzuverlässigkeit von LLMs bei schwierigen Programmsyntheseaufgaben zu überwinden. Diese eigenständigen Löser erreichen eine höhere Genauigkeit und Effizienz als LLMs und verbessern neuro-symbolische Hybridsysteme, während sie den Token-Verbrauch erheblich reduzieren.

29
RESEARCHarXiv CS.LG·5/7/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

Forschung zeigt, dass eine Einzelpositionsintervention bei Llama-3.2-3B keine Aufgabenübertragung erreicht, trotz hoher Sonden-Genauigkeit, was auf eine verteilte Aufgabenkodierung hindeutet. Eine Mehrpositionsintervention erzielt jedoch bis zu 96% Übertragung und identifiziert erstmals den kausalen Ort der In-Context-Lern-Aufgabenidentität.

29
RESEARCHarXiv CS.LG·4/22/2026

Towards Understanding the Robustness of Sparse Autoencoders

Diese Forschung untersucht die Robustheitsimplikationen von Sparse Autoencodern (SAEs) gegen Jailbreak-Angriffe auf Large Language Models (LLMs). Die Integration vortrainierter SAEs während der Inferenz reduziert die Jailbreak-Erfolgsraten erheblich um bis zu das Fünffache und verringert die Übertragbarkeit von Angriffen zwischen verschiedenen LLM-Familien.

29
DOCDEV.to AI·5/2/2026

🤖 The AI SaaS Playbook (Practical Edition)

Dieses praktische Playbook leitet Entwickler beim Aufbau von KI-zentrierten SaaS-Produkten an und beschreibt wesentliche Änderungen sowie neue Überlegungen. Es behandelt Architekturmuster, LLM-Integration, Agentenentwicklung, Kostenkontrolle, Tests, Sicherheit und Mandantenfähigkeit, um umsetzbare Ratschläge für eine schnelle Bereitstellung zu bieten.

29
NEWSDEV.to AI·4/19/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Die heutigen Nachrichten heben die Zusammenführung des "speculative checkpointing" in llama.cpp zur Beschleunigung der lokalen LLM-Inferenz sowie ein neues multimodales Ollama-Tool für die lokale Audio-/Videoanalyse hervor. Zudem wird ein detaillierter Vergleich zwischen MLX und GGUF zur Optimierung der Gemma 4-Bereitstellung auf Consumer-Hardware vorgestellt.

29
ARTICLEDEV.to AI·vor 8T

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

Da Unternehmen LLMs einführen, sind eine robuste KI-Governance und -Sicherheit unerlässlich, um Datenlecks, regulatorische Strafen und Reputationsschäden zu verhindern. Ein umfassender Verteidigungsansatz ist entscheidend, um Bedrohungen wie Prompt-Injection und Datenkontamination zu mindern und die Einhaltung von Vorschriften wie DSGVO und dem EU-KI-Gesetz zu gewährleisten.

29
RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Diese Forschung untersucht die Prompt-Sensitivität von LLMs durch den Vergleich von instruktionsbasierten und beispielbasierten Prompt-Stilen. Es wird festgestellt, dass LLMs trotz großer Leistungsvariationen gemeinsame zugrunde liegende Mechanismen nutzen, insbesondere „lexical task heads“, die die Aufgabe beschreiben und die Antwortgenerierung auslösen.

29
RESEARCHarXiv CS.CL·4/9/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

29
RESEARCHarXiv CS.LG·vor 18T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

29
RESEARCHarXiv CS.CL·vor 8T

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Dieses Papier schlägt SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) vor, um Retrieval-basierte Spekulative Dekodierung (RSD) für LLMs zu verbessern. SENSE adressiert die starren lexikalischen Abhängigkeiten von RSD, indem es robuste semantische Ausrichtung und ein Soft-gated Evaluationsmodul verwendet, um semantische Äquivalenz zu validieren.

29
RESEARCHarXiv CS.CL·vor 9T

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Dieses Papier stellt ein Zero-Shot-Multi-Label-Themenklassifizierungsframework vor und untersucht systematisch, wie die artikelbezogene Wissensgraphen-Erweiterung die Leistung beeinflusst. Die Autoren testen acht Methoden auf fünfzehn LLMs und acht Multi-Label-Datensätzen und stellen fest, dass die schlüsselwortgestützte Klassifizierung die beste Leistung im Basisframework erbringt.

29