← heapsort-ai

prompt engineering

249 items

ARTICLEDEV.to AI·vor 3Std

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Ein Entwickler berichtet, wie die Veröffentlichung von Claude Fable 5 von Anthropic 13 seiner 31 produktiven KI-Fähigkeiten über Nacht obsolet machte, bedingt durch Änderungen in den Prompt-Richtlinien und dem API-Verhalten. Alte Anweisungen verschlechtern nun aktiv die Ausgabequalität des neuen Modells und erfordern eine vollständige Neubewertung ihrer autonomen Agentenflotte.

62
ARTICLEDEV.to AI·4/14/2026

Teaching Your AI to Read: Extracting Key Facts from Scanned Documents and PDFs

Der Artikel rät, spezifische, investigative Prompts anstelle generischer Befehle zu verwenden, um KI beizubringen, Schlüsselfakten aus gescannten Dokumenten und PDFs zu extrahieren. Diese Methode verwandelt die KI in einen fokussierten Analysten, der eine strukturierte Datenextraktion und Automatisierung mit Tools wie Make.com und ChatGPT ermöglicht.

53
RESEARCH↑ trendingReddit r/MachineLearning·4/9/2026

[R] Forced Depth Consideration Reduces Type II Errors in LLM Self-Classification: Evidence from an Exploration Prompting Ablation Study - (200 trap prompts, 4 models, 8 Step-0 variants) [R]

Este estudo aborda erros de Tipo II na classificação de tarefas por LLMs, onde prompts aparentemente simples exigem compreensão profunda. A pesquisa demonstrou que prompts de exploração aberta ("What's really going on here?") reduzem significativamente esses erros em comparação com prompts de extração direta.

45
CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

Der Benutzer berichtet von einer äußerst positiven und effektiven Erfahrung mit dem PI Coding Agent und einem lokalen Qwen3.6 35b Modell in Produktionsprojekten. Der Erfolg wurde einer benutzerdefinierten „Plan-First Skill-Datei“ zugeschrieben, die einen strukturierten Planungs-Workflow erzwingt und eine schrittweise Ausführung sowie die Planfreigabe vor der Codierung sicherstellt.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/21/2026

156 landing-page generations through Gemma 4 31B with 52 different system prompts. Rule-dense "design heuristics" prompts scored below the empty baseline. [R]

Dieser Inhalt beschreibt eine Studie, die 156 Landing Pages mithilfe des Gemma 4 31B Modells generierte, wobei 52 verschiedene Systemprompts verwendet wurden. Auffällig ist, dass regelreiche "Design-Heuristiken"-Prompts schlechter abschnitten als die leere Baseline.

42
ARTICLE↑ trendingHacker News (AI)·vor 11T

You don't know how to use AI

Dieser Artikel untersucht die Idee, dass viele Benutzer das Potenzial von KI nicht voll ausschöpfen und schlägt vor, dass das Problem in unserer Herangehensweise liegt. Er bietet Einblicke, wie die Interaktion mit KI-Tools optimiert werden kann, um bessere Ergebnisse und eine höhere Produktivität zu erzielen.

38
ARTICLEDEV.to AI·4/22/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Ein Alleingründer entwickelte einen n8n-Evaluierungs-Workflow für KI-Agenten, der Prompts mit reinem GPT-4o versus GPT-4o mit einem Reasoning-Scaffold im A/B-Test mit einem blinden Gemini-Evaluator vergleicht. Dieses Tool ermöglicht es Entwicklern, die Agentenleistung bei ihren eigenen Aufgaben zu testen, wobei der Fokus darauf liegt, wie das Scaffold Tiefe, Sycophancy und Diagnoseverfahren beeinflusst.

35
DOCDEV.to AI·vor 2T

Anthropic Claude MCP: Run Claude as a Sub-Agent Inside Claude

Der Anthropic Claude MCP-Server ermöglicht das Verschachteln von Claude-Modellen (Haiku, Sonnet, Opus) als aufrufbare Sub-Agenten innerhalb einer primären Claude-Sitzung. Dies ermöglicht den Aufbau komplexer Multi-Agenten-Workflows, bei denen ein Hauptagent spezialisierte Sub-Agenten für paralleles oder sequenzielles Denken orchestriert und Aufgaben mit benutzerdefinierten Prompts und Prompt-Caching optimiert.

35
ARTICLEDEV.to AI·4/22/2026

Stop Paying OpenAI to Read Garbage: The Two-Stage Agent Pipeline

Dieser Artikel kritisiert die gängige Praxis, rohe, unformatierte Daten direkt in KI-Prompts einzugeben, was zu exorbitanten Kosten und schlechter Agentenleistung führt. Er veranschaulicht, wie der Ansatz eines Junior-Entwicklers einen KI-Agenten in eine Endlosschleife versetzte, als dieser versuchte, fehlerhaftes JSON zu parsen, und betont die Notwendigkeit einer ordnungsgemäßen Datenverarbeitung, anstatt LLMs als Parser zu nutzen.

34
RESEARCHarXiv CS.CL·vor 18T

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Diese Arbeit stellt PromptNCE vor, eine Methode zur Schätzung der punktweisen gegenseitigen Information (PMI) unter Verwendung von nur LLMs und kontrastiven Schätzungsprompts, wodurch die Notwendigkeit aufgabenspezifischer Kritiker entfällt. Sie präsentiert einen Benchmark mit von Menschen abgeleiteter PMI und zeigt, dass PromptNCE eine Spearman-Korrelation von bis zu 0,82 erreicht.

33
RESEARCHDEV.to AI·4/21/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Die Studie führte 52 KI-Codierungsbenchmarks durch und zeigte, dass die größte Variable bei der KI-gestützten Entwicklung der anfängliche Brief ist. Ein strukturierter Brief (CONTRACT.md) senkt die Kosten um 54 % und steigert die Qualität von 5/10 auf 9/10, während Agenten-Teams und Wiederholungsschleifen sich als unwirksam oder schädlich erwiesen.

33