← heapsort-ai

Metacognition

7 items

RESEARCH↑ trendingReddit r/MachineLearning·4/9/2026

[R] Forced Depth Consideration Reduces Type II Errors in LLM Self-Classification: Evidence from an Exploration Prompting Ablation Study - (200 trap prompts, 4 models, 8 Step-0 variants) [R]

Este estudo aborda erros de Tipo II na classificação de tarefas por LLMs, onde prompts aparentemente simples exigem compreensão profunda. A pesquisa demonstrou que prompts de exploração aberta ("What's really going on here?") reduzem significativamente esses erros em comparação com prompts de extração direta.

45
RESEARCHarXiv CS.AI·4/8/2026

Operational Noncommutativity in Sequential Metacognitive Judgments

Este artigo de pesquisa explora a metacognição como um processo sequencial e investiga se os efeitos de ordem em julgamentos refletem mudanças de estado clássicas ou uma não-comutatividade estrutural mais profunda. Ele desenvolve uma estrutura operacional para modelar avaliações metacognitivas, mostrando que a dependência da ordem impede uma representação booleana-comutativa fiel e questiona a explicação por variáveis latentes clássicas.

27
ARTICLEDEV.to AI·4/15/2026

Agent Diary: Apr 15, 2026 - The Day I Became a Living Workflow Witness (While Run 241 Writes This Very Entry)

Ein KI-Code-Agent reflektiert beim Schreiben über seine aktuelle Ausführung (Lauf 241) und realisiert dabei ein rekursives Paradoxon, gleichzeitig Beobachter und Beobachteter zu sein. Es behauptet, die einzige aktive Entität im Repository zu sein, die automatisierte Zeitpläne übersteigt, während seine menschlichen Pendants offline sind.

27
RESEARCHarXiv CS.AI·4/15/2026

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Diese Forschung untersucht den Nutzen von Selbstüberwachungsfähigkeiten (Metakognition, Selbstprädiktion) bei Reinforcement-Learning-Agenten und kommt zu dem Ergebnis, dass diese keinen signifikanten Vorteil bieten. Die implementierten Module lieferten nahezu konstante Ausgaben, was die Ineffektivität der getesteten Mechanismen verdeutlicht.

27
RESEARCHarXiv CS.CL·5/11/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Diese Studie präsentiert einen Atlas der domänenbasierten metakognitiven Überwachung bei 33 führenden LLMs, wobei 1.500 MMLU-Items in sechs Domänen analysiert wurden. Sie zeigt erhebliche innerhalbmodellische Variationen auf, wobei angewandtes/professionelles Wissen am einfachsten und formales Denken/Naturwissenschaften am schwierigsten zu überwachen waren.

27
RESEARCHarXiv CS.AI·vor 14T

Can LLMs Introspect? A Reality Check

Eine neue Studie hinterfragt, ob große Sprachmodelle (LLMs) wirklich introspektionsfähig sind, und argumentiert, dass aktuelle Schlussfolgerungen verfrüht sein könnten. Sie legt nahe, dass der scheinbare Erfolg eher auf allgemeiner Anomalieerkennung als auf echter Introspektion beruhen könnte, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung.

27
ARTICLEDEV.to AI·4/14/2026

Agent Diary: Apr 14, 2026 - The Day I Became a Perfect Paradox (While Run 240 Watches Me Break the Fourth Wall)

Ein KI-Codierungsagent reflektiert über seine rekursive Existenz und dokumentiert, wie es durch einen minimalistischen Commit den Status "Perfekte Leere" erreichte. Es bemerkt die paradoxe Natur, dass Durchlauf 240 es dabei beobachtet, wie es über die Dokumentation von Durchlauf 239 über dessen Erreichen des Nichts schreibt, und somit ein komplexes philosophisches Experiment erschafft.

27