LLM safety

3 items

RESEARCHarXiv CS.CL·5d atrás

Expert-Aware Refusal Steering

Este artigo explora a extensão da direção de recusa para Modelos de Linguagem Grandes de Mistura de Especialistas (LLMs MoE), mostrando que o desempenho da direção não é inibido pela arquitetura MoE. Ele propõe métodos de direção conscientes do especialista, descobrindo que o comportamento de recusa pode ser efetivamente direcionado com base na saída de um único especialista.

MoE models inference refusal steering AI alignment

RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

Pequenas edições direcionadas de pesos em cabeças de atenção específicas de LLMs, como demonstrado pelo método ASGuard, podem reduzir drasticamente as taxas de sucesso de jailbreaks. Essa abordagem cirúrgica corrige vulnerabilidades, como ataques de mudança de tempo verbal, ao amortecer as ativações nas cabeças de atenção relevantes, aumentando a segurança sem comprometer a competência geral do modelo.

AI models jailbreaking security LLM safety

ARTICLEDEV.to AI·16d atrás

I open-sourced a 4-agent blood-panel triage workflow on heym, with a deterministic Python safety gate that runs BEFORE any LLM token

Foi desenvolvido um fluxo de trabalho multiagente de 4 agentes para transformar painéis de sangue brutos em relatórios estruturados de educação do paciente. A arquitetura inclui um gate de segurança Python determinístico que é executado antes de qualquer token LLM, prevenindo falhas críticas em valores de laboratório de emergência.

patient education deterministic AI LLM safety healthcare AI