RESEARCH27
Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States
arXiv CS.CL·3. Juni 2026
Dieser Artikel zeigt, dass lineare Sonden, die oft verwendet werden, um unterschiedliche Schlussfolgerungsrepräsentationen in verborgenen Zuständen von LLMs zu identifizieren, tatsächlich das Aufgabenformat und nicht die Schlussfolgerungsmodi erkennen. Die hohe Genauigkeit, die bei Benchmarks mit Qwen3-14B beobachtet wurde, verschwand bei der Kontrolle von Formatvariablen, was auf weitgehend geteilte Schlussfolgerungen hindeutet, die nicht funktional mit der Geometrie des verborgenen Zustands verbunden sind.
Original lesen ↗