large language models

262 items

ARTICLETogether AI Blog·vor 8T

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together ermöglichte eine effiziente Inferenz für MiniMax-M3, wodurch ein 1M-Token-Kontext und Multimodalität freigeschaltet wurden. Dies wurde durch KV-block-major sparse attention, paged MSA decode, optimiertes Index-Scoring und ein Rust-basiertes multimodales Gateway erreicht.

System Design Optimization Multimodality large language models

RESEARCHarXiv CS.AI·4/7/2026

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Este trabalho apresenta um framework automatizado para comparar documentos de política de segurança de IA usando LLMs e uma taxonomia compartilhada, avaliando a estabilidade e validade da análise.

Policy Analysis Crosswalk Framework Automated Analysis large language models

RESEARCHarXiv CS.AI·4/8/2026

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

ReVEL propõe um framework híbrido que integra LLMs como raciocinadores multi-turno dentro de algoritmos evolutivos para evoluir heurísticas eficazes para problemas de otimização NP-difíceis. O método utiliza agrupamento de perfis de desempenho e reflexão guiada por feedback para que o LLM analise comportamentos e gere refinamentos direcionados.

Otimização Combinatória Inteligência Artificial Algoritmos Evolutivos Heurísticas

RESEARCHarXiv CS.AI·4/8/2026

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Grandes modelos de linguagem (LLMs) falham em raciocínio sistemático e frequentemente alucinam, expondo uma lacuna epistêmica. Pramana é uma nova abordagem que ensina metodologia epistemológica explícita a LLMs, através de fine-tuning na lógica Navya-Nyaya, um framework de raciocínio indiano milenar.

Epistemic Reasoning hallucination large language models Fine-tuning

RESEARCHarXiv CS.AI·4/7/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·4/6/2026

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMs Many-Shot Learning NLP machine translation

ARTICLEOpenAI Blog·4/29/2026

Where the goblins came from

Dieser Inhalt analysiert, wie sich 'Kobold-Ausgaben' oder persönlichkeitsbedingte Eigenheiten in KI-Modellen wie GPT-5 verbreiten. Er beschreibt die Zeitlinie, die Ursache und die Korrekturen für diese Verhaltensweisen.

model debugging AI behavior large language models

RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·vor 28T

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Diese Arbeit untersucht den Einsatz großer Sprachmodelle (LLMs) für Aufgaben in Smart Cities, indem sie Fernerkundungsbilder zur Charakterisierung der gebauten Umgebung auf mehreren räumlichen Skalen nutzt. Die Ergebnisse zeigen das Potenzial der Integration von Fernerkundung mit LLMs zur Unterstützung von Smart Cities und Entscheidungsfindung.

Built Environment Urban Planning Remote sensing large language models

RESEARCHarXiv CS.CL·vor 28T

Effective Explanations Support Planning Under Uncertainty

Diese Forschung schlägt ein Berechnungsmodell vor, das ein großes Sprachmodell und einen Planungsagenten verwendet, um Erklärungen in Aktionspläne für die Navigation unter Unsicherheit umzuwandeln. Experimente zeigen, dass höher bewertete Erklärungen die menschliche Navigation erheblich verbessern und als hilfreicher empfunden werden.

Planning Explanation Generation human-AI interaction AI

RESEARCHarXiv CS.CL·vor 28T

Sanity Checks for Long-Form Hallucination Detection

Diese Forschungsarbeit stellt eine kontrollierte Invarianzmethodologie zur Erkennung von Halluzinationen in großen Sprachmodellen vor. Mittels Orakeltests wie extsc{Force} und extsc{Remove} wird untersucht, ob Detektionsmethoden das Denken oder lediglich Oberflächenkorrelate der finalen Antwort bewerten.

hallucination detection Chain-of-Thought large language models LLM evaluation

RESEARCHarXiv CS.CL·vor 28T

Change My View? The Dynamics of Persuasion and Polarization in Online Discourse

Diese Studie verwendet große Sprachmodelle, um Debatten auf Reddits r/ChangeMyView zu analysieren, wo Meinungsänderungen öffentlich signalisiert werden. Die Forschung zeigt, dass rhetorische Strategien wie Konzessionen und empathische Ausrichtung die Wahrscheinlichkeit einer Meinungsänderung erheblich erhöhen.

social media online discourse rhetoric large language models

NEWSGoogle DeepMind Blog·vor 23T

Introducing Gemini Omni

Dies ist die Ankündigung von Gemini Omni, einer neuen Iteration der KI-Modellfamilie von Google.

New Product Google AI Gemini AI

NEWSHugging Face Blog·4/28/2026

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

NVIDIA stellt Nemotron 3 Nano Omni vor, ein neues multimodales KI-Modell mit langem Kontext. Es bietet Intelligenz für Dokumente, Audio- und Video-Agenten.

multimodal AI large language models NVIDIA AI agents

NEWSTwo Minute Papers (YouTube)·5/6/2026

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

DeepSeek V4 AI hat Berichten zufolge teure, etablierte KI-Systeme übertroffen und ist kostenlos verfügbar. Diese Entwicklung unterstreicht Fortschritte in zugänglicher und leistungsstarker künstlicher Intelligenz.

DeepSeek AI models open-source AI large language models

DeepSeek V4 AI Beats Billion Dollar Systems…For Free

RESEARCHarXiv CS.AI·4/7/2026

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Diese Forschung stellt IC3-Evolve vor, eine neuartige Methode zur Hardware-Modellprüfung. Sie nutzt eine durch Beweise/Zeugen gesteuerte Offline-LLM-getriebene heuristische Evolution, um die Effizienz des IC3-Algorithmus zu verbessern.

Heuristics formal methods large language models model checking

RESEARCHarXiv CS.CL·4/7/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" stellt eine Methode zur "Zero-Token"-Wissensbereitstellung für große Sprachmodelle (LLMs) vor, indem Informationen direkt in den KV-Cache injiziert werden. Diese Technik zielt darauf ab, die LLM-Leistung zu verbessern und Inferenzkosten zu senken, indem externes Wissen effizient ohne Kontext-Tokens integriert wird.

Knowledge Injection machine learning AI large language models

RESEARCHHugging Face (YouTube)·4/16/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Dieser Inhalt des Hugging Face Journal Clubs erörtert eine "beschämend einfache" Methode der Selbst-Destillation, die die Codegenerierung erheblich verbessert. Er beleuchtet Fortschritte bei der Nutzung großer Sprachmodelle für Programmieraufgaben.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

RESEARCHQwen Blog·3/5/2025

QwQ-32B: Embracing the Power of Reinforcement Learning

O conteúdo aborda o potencial do Aprendizado por Reforço (RL) em escala para aprimorar o desempenho e as capacidades de raciocínio de modelos de IA, superando métodos convencionais. A pesquisa explora especificamente o impacto do RL na inteligência de Grandes Modelos de Linguagem (LLMs), citando exemplos como o DeepSeek R1.

model performance deep learning reinforcement learning large language models