These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade
Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings

Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings

Standard-KI-Chatbots scheitern beim Konvertieren komplexer Finanztabellen aus Bildern oder Scans, was zu Fehlern wie verschobenen Spalten und halluzinierten Zahlen führt. Dies liegt daran, dass allgemeine multimodale LLMs komplexe Rasterlayouts nicht erhalten können, was spezialisierte Pipelines für eine präzise Datenextraktion und -integrität erforderlich macht.
GenericAgent ist ein Python-Framework zur Erstellung sich selbst entwickelnder autonomer KI-Agenten, das es LLMs ermöglicht, lokale Computersysteme mit minimalen Tools zu steuern. Es lernt und kristallisiert erfolgreiche Aufgabenausführungen automatisch zu wiederverwendbaren „Skills“.
Ein KI-System namens ECHO wurde entwickelt, um das Slack-Chaos in einen lebendigen Wissensgraphen umzuwandeln und so das Vergessen im Team zu bekämpfen. Es nutzt LLMs zur Entitätsextraktion, erstellt Beziehungen in einem Graphen und wendet einen zeitlichen Zerfall an, um die Relevanz des Teamwissens zu gewährleisten.
TALM (Tool Augmented Language Models) konzentriert sich auf die Integration externer Werkzeuge mit großen Sprachmodellen, um deren Fähigkeiten zu erweitern. Dieser Ansatz ermöglicht es LLMs, komplexe Aufgaben effektiver zu bewältigen, indem sie spezialisierte Funktionen und reale Interaktionen nutzen.
Dieser Artikel beschreibt die Entwicklung von SIP (State Integrity Protocol), einem Tool zur Erkennung von Intent- und semantischem Drift in LLM-Agenten-Ausgaben. Es adressiert das Problem des stillen Versagens von KI-Agenten durch automatische Überprüfung auf Diskrepanzen zwischen erwarteten und tatsächlichen Ergebnissen.
Diese Studie bewertet die Leistung von Prompting-Strategien (Chain-of-Thought und Zero-Shot) in LLMs mit erweitertem Schlussfolgern wie Grok-4.1, wobei die Sampling-Temperatur bei 39 anspruchsvollen mathematischen Problemen variiert wurde. Dabei wurde festgestellt, dass Zero-Shot-Prompting bei moderaten Temperaturen seinen Höhepunkt erreicht, während Chain-of-Thought bei extremen Temperaturen am besten abschneidet und den Nutzen des erweiterten Schlussfolgerns erheblich steigert.
Dieser Artikel behandelt das kritische Problem, dass KI-Agenten Informationen aufgrund von Kontextfensterbeschränkungen vergessen, wobei ältere Nachrichten entfernt werden. Er hebt hervor, dass dies ein Problem der Speicherarchitektur und keine Halluzination ist, und schlägt vor, über die bloße Nutzung des Kontextfensters als einzigen Speicher des Agenten hinauszugehen.
Neue Forschungsergebnisse deuten darauf hin, dass „Halluzinationsneuronen“ (H-Neuronen), die LLM-Halluzinationen vorhersagen, nicht über verschiedene Wissensdomänen hinweg verallgemeinerbar sind. Dies deutet darauf hin, dass Halluzination möglicherweise kein einzelner Mechanismus mit einer universellen neuronalen Signatur ist, sondern kontextabhängig.
Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.
Der Entwickler baute autario, eine Datenplattform, die über 2.500 verifizierte öffentliche Datensätze aus verschiedenen Quellen für Menschen, Anwendungen und insbesondere KI-Agenten abfragbar macht. Diese Plattform zielt darauf ab, LLM-Halluzinationen zu verhindern, indem sie Echtzeit-Datenabfragen und die Veröffentlichung von Diagrammen mit verifizierten Informationen ermöglicht.
Dieses Papier stellt MedicalBench vor, einen neuen Benchmark zur Bewertung großer Sprachmodelle bei der Extraktion medizinischer Konzepte aus elektronischen Gesundheitsakten. Es konzentriert sich auf implizites medizinisches Denken und Evidenzfundierung, um die Herausforderung der Identifizierung nicht explizit genannter Konzepte zu bewältigen.
Dieses Forschungspapier zeigt, dass große Sprachmodelle beim kausalen Entdecken grundlegend versagen, da sie nicht zwischen kausalen Graphen unterscheiden können, die ähnliche Beobachtungsdaten erzeugen. Es führt ein "Kernel-Obstruktionstheorem" ein, um diese intrinsische Einschränkung aktueller Lernparadigmen zu formalisieren.
Diese Forschung stellt einen mathematisch begründeten generativen KI-Ansatz zur Ableitung von Formeln für die optische Kommunikation vor, insbesondere zur Modellierung nichtlinearer Interferenzen in Glasfasern. Durch die Anleitung eines LLM mit strukturierten Prompts rekonstruierte die Studie erfolgreich bekannte Ausdrücke und leitete eine neuartige Annäherung ab, die sowohl physikalische Konsistenz als auch praktische Genauigkeit zeigte.
Der Artikel schlägt vor, die mehrfache juristische Annotation als Abrufaufgabe zu betrachten, wobei eingefrorene Modelle und k-nächste Nachbarn zur Zuweisung von Labels verwendet werden. Diese Methode erzielt eine wettbewerbsfähige Genauigkeit und eine hohe Dateneffizienz auf juristischen Datensätzen, wodurch die Rechenkosten im Vergleich zum Fine-Tuning großer Sprachmodelle erheblich gesenkt werden.
Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.
Wir stellen VAMPS vor, einen neuen Benchmark für multimodale große Sprachmodelle (MLLMs), der sich auf visuell unterstützte mathematische Problemlösung konzentriert. Er enthält 1.168 bilinguale Multiple-Choice-Fragen-Antworten-Paare aus iranischen Universitätsaufnahmeprüfungen, bei denen das Plotten eine natürliche Lösungsstrategie bietet.
Dieser Artikel befasst sich mit der kritischen Herausforderung der LLM-Kontextfenstergrenzen, die dazu führen, dass Chatbots Informationen vergessen und Agenten Ziele aus den Augen verlieren, obwohl Modelle größere Fenster bieten. Es wird betont, dass die bloße Erweiterung der Kontextfenster aufgrund prohibitiver Kosten und erhöhter Latenz nicht ausreicht, und es werden Produktionsstrategien und Kompromisse versprochen.
O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.
StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.