LLMs

720 items

ARTICLEDEV.to AI·4/8/2026

I Built a Tool to Test Whether Multiple LLMs Working Together Can Beat a Single Model

O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.

multi-model AI avaliação de desempenho Orquestração LLMs

RESEARCHarXiv CS.AI·vor 6T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

LLMs reinforcement learning code generation RTL Synthesis

ARTICLEDEV.to AI·4/11/2026

Why Chunking Is the Biggest Mistake in RAG Systems

Este artigo critica a técnica de 'chunking' em sistemas RAG, destacando seus problemas de perda de contexto e erros em documentos estruturados, como registros clínicos. Propõe a indexação ciente da estrutura e a sumarização como métodos mais eficazes para lidar com dados complexos.

chunking LLMs RAG Document Intelligence

ARTICLEDEV.to AI·vor 4T

<think>

Dieser Artikel untersucht kostengünstige Alternativen zu GPT-4o und zeigt, wie andere KI-Modelle erhebliche Einsparungen für Entwickler bieten können. Er enthält direkte Kostenvergleiche und hebt Optionen wie DeepSeek V4 Flash und Qwen3-32B hervor.

LLMs API Management development Cost Optimization

DOCML Mastery·vor 5T

Using Scikit-LLM with Open-Source LLMs

Dieser Artikel zeigt, wie man eine Sprachaufgabe wie die Textklassifizierung durch die Integration lokal gehosteter Open-Source-Sprachmodelle (LLMs) durchführt. Er demonstriert, wie man dies kostenlos mit Ollama und der Python-Bibliothek Scikit-LLM mit Modellen wie Mistral, Gemma und Llama 3 erreicht.

open-source LLMs learning Python

RESEARCHarXiv CS.CL·5/8/2026

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

ReaComp kompiliert LLM-Argumentation in symbolische Programmsynthesizer, um die Ineffizienz und Unzuverlässigkeit von LLMs bei schwierigen Programmsyntheseaufgaben zu überwinden. Diese eigenständigen Löser erreichen eine höhere Genauigkeit und Effizienz als LLMs und verbessern neuro-symbolische Hybridsysteme, während sie den Token-Verbrauch erheblich reduzieren.

program synthesis LLMs Symbolic AI AI Efficiency

RESEARCHarXiv CS.LG·5/7/2026

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

Forschung zeigt, dass eine Einzelpositionsintervention bei Llama-3.2-3B keine Aufgabenübertragung erreicht, trotz hoher Sonden-Genauigkeit, was auf eine verteilte Aufgabenkodierung hindeutet. Eine Mehrpositionsintervention erzielt jedoch bis zu 96% Übertragung und identifiziert erstmals den kausalen Ort der In-Context-Lern-Aufgabenidentität.

LLMs Mechanistic Interpretability in-context learning causal importance

RESEARCHarXiv CS.AI·vor 27T

CHAL: Council of Hierarchical Agentic Language

CHAL (Council of Hierarchical Agentic Language) ist ein neues multiagentisches dialektisches Framework zur Optimierung von Überzeugungen in widerlegbaren Domänen. Es adressiert aktuelle Einschränkungen der Multi-Agenten-Debatte für LLM-Argumentation, wobei widerlegbare Argumentation als Motor für die Überzeugungsoptimierung behandelt wird.

dialectic frameworks LLMs belief optimization AI Reasoning

ARTICLEDEV.to AI·vor 4T

The Limits of AI Models: What LLMs Still Can't Do (And Why)

Dieser Artikel untersucht die inhärenten Grenzen von KI-Modellen, insbesondere von LLMs, und betont die Wichtigkeit, diese Grenzen für die Entwicklung robuster Produkte zu verstehen. Er beschreibt Halluzinationen als eine wesentliche Einschränkung und erklärt, dass LLMs plausiblen, nicht notwendigerweise wahren Text erzeugen, ohne eine interne Faktenprüfung.

AI models LLMs hallucination AI limitations

RESEARCHarXiv CS.CL·4/22/2026

Two-dimensional early exit optimisation of LLM inference

Dieses Papier stellt eine zweidimensionale Early-Exit-Strategie für Klassifizierungsaufgaben in LLMs vor, die schicht- und satzweise Beendigung koordiniert. Die Methode erzielt multiplikative Rechenzeitersparnisse und Beschleunigungen von 1,4-2,3x gegenüber optimalem schichtweisem Early Exit, besonders bei einfacheren Aufgaben mit verschiedenen LLMs.

LLMs Computational Efficiency inference optimization

RESEARCHarXiv CS.LG·4/22/2026

Towards Understanding the Robustness of Sparse Autoencoders

Diese Forschung untersucht die Robustheitsimplikationen von Sparse Autoencodern (SAEs) gegen Jailbreak-Angriffe auf Large Language Models (LLMs). Die Integration vortrainierter SAEs während der Inferenz reduziert die Jailbreak-Erfolgsraten erheblich um bis zu das Fünffache und verringert die Übertragbarkeit von Angriffen zwischen verschiedenen LLM-Familien.

LLMs security machine learning

DOCDEV.to AI·5/2/2026

🤖 The AI SaaS Playbook (Practical Edition)

Dieses praktische Playbook leitet Entwickler beim Aufbau von KI-zentrierten SaaS-Produkten an und beschreibt wesentliche Änderungen sowie neue Überlegungen. Es behandelt Architekturmuster, LLM-Integration, Agentenentwicklung, Kostenkontrolle, Tests, Sicherheit und Mandantenfähigkeit, um umsetzbare Ratschläge für eine schnelle Bereitstellung zu bieten.

AI architecture SaaS LLMs best practices

NEWSDEV.to AI·4/19/2026

llama.cpp Speculative Checkpointing, Ollama Multimodal Tool, MLX vs GGUF for Gemma 4

Die heutigen Nachrichten heben die Zusammenführung des "speculative checkpointing" in llama.cpp zur Beschleunigung der lokalen LLM-Inferenz sowie ein neues multimodales Ollama-Tool für die lokale Audio-/Videoanalyse hervor. Zudem wird ein detaillierter Vergleich zwischen MLX und GGUF zur Optimierung der Gemma 4-Bereitstellung auf Consumer-Hardware vorgestellt.

LLMs Ollama llama.cpp model inference

ARTICLEDEV.to AI·vor 8T

AI Governance and Security: Why Enterprise LLMs Need a Defense-in-Depth Approach

Da Unternehmen LLMs einführen, sind eine robuste KI-Governance und -Sicherheit unerlässlich, um Datenlecks, regulatorische Strafen und Reputationsschäden zu verhindern. Ein umfassender Verteidigungsansatz ist entscheidend, um Bedrohungen wie Prompt-Injection und Datenkontamination zu mindern und die Einhaltung von Vorschriften wie DSGVO und dem EU-KI-Gesetz zu gewährleisten.

LLMs data privacy security compliance

RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Diese Forschung untersucht die Prompt-Sensitivität von LLMs durch den Vergleich von instruktionsbasierten und beispielbasierten Prompt-Stilen. Es wird festgestellt, dass LLMs trotz großer Leistungsvariationen gemeinsame zugrunde liegende Mechanismen nutzen, insbesondere „lexical task heads“, die die Aufgabe beschreiben und die Antwortgenerierung auslösen.

model interpretability LLMs prompt-engineering Attention Mechanisms

RESEARCHarXiv CS.CL·4/9/2026

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

LLMs Question Answering consistency NLP

RESEARCHarXiv CS.CL·5/7/2026

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Nsanku ist ein systematischer Benchmark zur Bewertung der Zero-Shot-Maschinenübersetzungsleistung von 19 LLMs für 43 ghanaische Sprachen. Er verwendet Bibelsätze und Metriken wie BLEU und chrF, wobei gemini-2.5-flash die höchste Durchschnittspunktzahl erreicht.

LLMs benchmarking machine translation Low-resource languages

RESEARCHarXiv CS.LG·vor 18T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·vor 8T

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Dieses Papier schlägt SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) vor, um Retrieval-basierte Spekulative Dekodierung (RSD) für LLMs zu verbessern. SENSE adressiert die starren lexikalischen Abhängigkeiten von RSD, indem es robuste semantische Ausrichtung und ein Soft-gated Evaluationsmodul verwendet, um semantische Äquivalenz zu validieren.

LLMs NLP inference optimization Speculative Decoding

RESEARCHarXiv CS.CL·vor 9T

Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study

Dieses Papier stellt ein Zero-Shot-Multi-Label-Themenklassifizierungsframework vor und untersucht systematisch, wie die artikelbezogene Wissensgraphen-Erweiterung die Leistung beeinflusst. Die Autoren testen acht Methoden auf fünfzehn LLMs und acht Multi-Label-Datensätzen und stellen fest, dass die schlüsselwortgestützte Klassifizierung die beste Leistung im Basisframework erbringt.

Multi-label Classification LLMs Knowledge Graph Zero-Shot Topic Classification