← heapsort-ai

AI performance

27 items

ARTICLELangChain Blog·4/2/2026

Open Models have crossed a threshold

Offene Modelle wie GLM-5 und MiniMax M2.7 haben eine Schwelle überschritten und erreichen bei zentralen Agentenaufgaben die Leistung geschlossener Spitzenmodelle. Sie bieten vergleichbare Leistung bei Dateivorgängen, Werkzeugnutzung und der Befolgung von Anweisungen, jedoch zu einem Bruchteil der Kosten und Latenz.

Open Models have crossed a threshold
27
ARTICLEDEV.to AI·4/9/2026

MIT Sent AI to Do Our Jobs. It Struggled.

Um estudo do MIT testou agentes de IA em milhares de tarefas do mundo real, revelando que eles tiveram dificuldades em atividades que exigem presença física, julgamento contextual ou confiança humana. Isso destaca a lacuna entre o que a IA pode fazer em demonstrações controladas e sua performance em trabalhos complexos, onde as habilidades humanas permanecem cruciais.

26