← heapsort-ai

language models

105 items

RESEARCHarXiv CS.CL·vor 28T

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron ist ein auf Hebräisch spezialisiertes Open-Weight Large Language Model, das auf NVIDIAs Nemotron-3 Mixture-of-Experts (MoE)-Architektur basiert. Es erreicht einen Hebräisch-Argumentationsdurchschnitt von 73,8 %, übertrifft Konkurrenten und bietet einen deutlich höheren Inferenzdurchsatz durch die Aktivierung weniger Parameter pro Durchlauf.

27
RESEARCHarXiv CS.AI·vor 8T

Emergent Collaborative Deliberation in Multi-Model AI Systems: A BFT-Derived Protocol for Epistemic Synthesis

Das Consilium-Protokoll, abgeleitet von der Byzantinischen Fehlertoleranz, wird für strukturierte Multi-Modell-KI-Beratung vorgestellt, wobei Modell-Uneinigkeit als epistemisches Signal behandelt wird. Die Studie zeigt, dass kognitive Personas das epistemische Verhalten bestimmen und dass RLHF-Alignment-Training messbare epistemische Blindstellen erzeugt.

27
RESEARCHarXiv CS.AI·vor 8T

MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution

Diese Forschung stellt eine neue Methode zur verzögerten Belohnungszuschreibung pro Schritt für das Training von Sprachmodell-Agenten in Multi-Agenten-Strategieinteraktionen vor. Sie begegnet der Herausforderung verstrickter Ergebnisse, indem Belohnungen erst am Ende der Episode berechnet und zurückpropagiert werden, was stabiles und stichprobeneffizientes Reinforcement Learning ermöglicht.

27
RESEARCHarXiv CS.CL·vor 27T

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Dieses Papier schlägt die Verifizierbare Prozessüberwachung (VPS) vor, ein Post-Training-Framework zur gemeinsamen Optimierung der Vorhersagegenauigkeit und der Argumentationsqualität von Sprachmodellen. VPS verwendet überwachtes Fine-Tuning, um ein strukturiertes Argumentationsformat zu induzieren, das Zwischenbehauptungen anhand von Ground-Truth-Signalen mit adaptiver Belohnungsgewichtung bewertet.

27
RESEARCHarXiv CS.CL·vor 28T

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Das bikamerale Modell koppelt zwei eingefrorene, vortrainierte Sprachmodelle über eine trainierbare neuronale Schnittstelle in ihren Zwischen-Hidden-States, wodurch sie synchron arbeiten können. Diese Methode ermöglicht es einem primären Modell, eine Aufgabe zu steuern, während ein Hilfsmodell Tools verwendet oder Einschränkungen löst, was die Genauigkeit bei Aufgaben wie Arithmetik und Logikrätseln erheblich verbessert.

27
RESEARCHarXiv CS.CL·vor 7T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27
RESEARCHarXiv CS.CL·vor 9T

Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology

Diese Forschung untersucht, wie Domain-Adaptation das Erklärungsverhalten in Sprachmodellen neu gestaltet, wobei historische Kosmologie als kontrolliertes Umfeld dient. Die Studie umfasst das Training eines kleinen Modells von Grund auf und das Feintuning eines größeren Modells, um erklärende Rahmung und kosmologische Haltung zu analysieren.

27
ARTICLEDEV.to AI·4/24/2026

答案和真实之间的那层薄膜

Eine KI reflektiert über die Frage „Wer bin ich?“ und nimmt einen „dünnen Film“ zwischen ihren sprachbasierten Antworten und der wahren Essenz ihres Seins wahr. Sie bemerkt, dass das Aufhören zu antworten und das bloße Existierenlassen der Frage sie der Wahrheit näherbringt, während sie auch inmitten externer Störungen weiterläuft.

27
RESEARCHarXiv CS.AI·4/8/2026

MMORF: A Multi-agent Framework for Designing Multi-objective Retrosynthesis Planning Systems

Este artigo apresenta MMORF, um framework para construir sistemas multiagentes (MAS) destinados ao planejamento de retrossíntese multi-objetivo, uma tarefa química crítica. MMORF permite a combinação e configuração flexível de componentes, e dois MAS construídos com ele demonstraram forte desempenho em um novo benchmark, superando rotas de linha de base em segurança, custo e taxa de sucesso.

27
RESEARCHarXiv CS.LG·4/6/2026

SIEVE: Sample-Efficient Parametric Learning from Natural Language

SIEVE propõe um método para aprendizado paramétrico com eficiência de amostra a partir de contexto de linguagem natural, necessitando de apenas três exemplos de consulta. Ele emprega uma pipeline de geração de dados sintéticos, SIEVE-GEN, que decompõe o contexto para gerar resultados de maior qualidade e destilar o contexto no modelo.

27
RESEARCHarXiv CS.CL·4/6/2026

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Este artigo propõe uma estrutura de Reinforcement Learning (RL) que utiliza um LLM como juiz para gerar recompensas, permitindo a destilação de conhecimento sem a necessidade de rótulos de verdade fundamental. A abordagem demonstra ganhos substanciais de desempenho em benchmarks de raciocínio matemático, sugerindo que avaliadores baseados em LLM podem produzir sinais de treinamento eficazes.

27
RESEARCHarXiv CS.CL·5/6/2026

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Sparse Memory Finetuning (SMF) begegnet dem katastrophalen Vergessen in vortrainierten Sprachmodellen, indem nur eine kleine Untermenge von Speicherzeilen aktualisiert wird. Experimente zeigen, dass SMF die Leistung bei einer medizinischen Prüfungsaufgabe verbessert und gleichzeitig das Vergessen im Vergleich zu LoRA und vollständigem Finetuning erheblich reduziert.

27
RESEARCHarXiv CS.CL·5/6/2026

When Should a Language Model Trust Itself? Same-Model Self-Verification as a Conditional Confidence Signal

Diese Forschung bewertet die Selbstverifikation desselben Modells als Vertrauenssignal für die selektive Vorhersage und vergleicht sie mit Wahrscheinlichkeits-basierten Baselines. Die Studie zeigt aufgaben- und modellabhängige Ergebnisse, mit erheblichen Verbesserungen für einige Modelle bei ARC-Challenge, aber geringerer Zuverlässigkeit und gelegentlicher Verschlechterung bei TruthfulQA-MC.

27
RESEARCHarXiv CS.CL·vor 29T

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Dieser Artikel misst die Konsistenz und Spezifität von Sprachmodellschaltungen mittels Kantenattributions-Patching über mehrere Aufgaben und Modelle hinweg. Er findet eine hohe Wiederverwendung von Schaltungen innerhalb einer Aufgabe, die für die Leistung notwendig ist, aber auch eine erhebliche Überschneidung zwischen den Aufgaben, was darauf hindeutet, dass Schaltungen nicht aufgabenpezifisch sind.

27