← heapsort-ai

prompt engineering

249 items

ARTICLEDEV.to AI·il y a 3h

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Un développeur raconte comment la sortie de Claude Fable 5 d'Anthropic a rendu 13 de ses 31 compétences d'IA en production obsolètes du jour au lendemain, en raison des changements dans les directives de prompt et le comportement de l'API. Les anciennes instructions dégradent désormais activement la qualité de la sortie du nouveau modèle, nécessitant une réévaluation complète de leur flotte d'agents autonomes.

62
ARTICLEDEV.to AI·14/04/2026

Teaching Your AI to Read: Extracting Key Facts from Scanned Documents and PDFs

L'article conseille d'utiliser des prompts spécifiques et d'investigation, plutôt que des commandes génériques, pour enseigner à l'IA l'extraction de faits clés des documents numérisés et PDF. Cette approche transforme l'IA en un analyste ciblé, permettant l'extraction de données structurées et l'automatisation avec des outils comme Make.com et ChatGPT.

53
ARTICLEDEV.to AI·il y a 1j

Code Description Is Now the Bottleneck (Not the Code)

Le développement logiciel a évolué, la description du code étant désormais le goulot d'étranglement, et non l'écriture du code elle-même, grâce aux capacités de l'IA. Des outils comme Spec-Kit connaissent une croissance rapide car ils résolvent le problème de la documentation du code pour que l'IA puisse le comprendre et l'utiliser avec précision.

49
RESEARCH↑ trendingReddit r/MachineLearning·09/04/2026

[R] Forced Depth Consideration Reduces Type II Errors in LLM Self-Classification: Evidence from an Exploration Prompting Ablation Study - (200 trap prompts, 4 models, 8 Step-0 variants) [R]

Este estudo aborda erros de Tipo II na classificação de tarefas por LLMs, onde prompts aparentemente simples exigem compreensão profunda. A pesquisa demonstrou que prompts de exploração aberta ("What's really going on here?") reduzem significativamente esses erros em comparação com prompts de extração direta.

45
CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

L'utilisateur fait part d'une expérience très positive et efficace avec l'agent de codage PI, utilisant un modèle local Qwen3.6 35b pour des projets de production. Le succès a été attribué à un fichier de « skill » personnalisé qui impose un flux de travail de planification, garantissant une exécution étape par étape et l'approbation du plan avant tout codage.

42
RESEARCH↑ trendingReddit r/MachineLearning·21/04/2026

156 landing-page generations through Gemma 4 31B with 52 different system prompts. Rule-dense "design heuristics" prompts scored below the empty baseline. [R]

Ce contenu décrit une recherche ayant généré 156 pages d'atterrissage à l'aide du modèle Gemma 4 31B, en utilisant 52 invites système différentes. Il est intéressant de noter que les invites basées sur des « heuristiques de conception » riches en règles ont obtenu un score inférieur à la ligne de base vide.

42
ARTICLE↑ trendingHacker News (AI)·il y a 11j

You don't know how to use AI

Cet article explore l'idée que de nombreux utilisateurs n'exploitent pas pleinement le potentiel de l'IA, suggérant que le problème réside dans la façon dont nous l'abordons. Il offre des pistes pour optimiser l'interaction avec les outils d'IA afin d'obtenir des résultats supérieurs et une productivité accrue.

38
ARTICLEDEV.to AI·22/04/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fondateur solo a créé un flux de travail d'évaluation n8n pour les agents d'IA, effectuant des tests A/B de prompts avec GPT-4o pur versus GPT-4o avec un échafaudage de raisonnement, utilisant un évaluateur Gemini aveugle. Cet outil permet aux développeurs de tester les performances des agents sur leurs propres tâches, en se concentrant sur la façon dont l'échafaudage affecte la profondeur, la sycophanie et les procédures de diagnostic.

35
DOCDEV.to AI·il y a 2j

Anthropic Claude MCP: Run Claude as a Sub-Agent Inside Claude

Le serveur Anthropic Claude MCP permet d'imbriquer des modèles Claude (Haiku, Sonnet, Opus) en tant que sous-agents appelables au sein d'une session Claude principale. Cela permet de construire des flux de travail multi-agents sophistiqués, où un agent principal orchestre des sous-agents spécialisés pour un raisonnement parallèle ou séquentiel, optimisant les tâches avec des invites personnalisées et la mise en cache des invites.

35
ARTICLEDEV.to AI·22/04/2026

Stop Paying OpenAI to Read Garbage: The Two-Stage Agent Pipeline

Cet article critique la pratique courante de nourrir des données brutes et non formatées directement dans les prompts d'IA, entraînant des coûts exorbitants et de faibles performances de l'agent. Il illustre comment l'approche d'un développeur junior a provoqué une boucle infinie d'un agent IA tentant d'analyser du JSON malformé, soulignant la nécessité d'une ingénierie de données appropriée plutôt que d'utiliser les LLM comme parsers.

34
RESEARCHarXiv CS.CL·il y a 18j

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Cet article introduit PromptNCE, une méthode pour estimer l'information mutuelle ponctuelle (PMI) en utilisant uniquement des LLM et des invites d'estimation contrastive, contournant le besoin de critiques spécifiques à la tâche. Il présente un benchmark avec des PMI dérivés de l'humain et montre que PromptNCE atteint une corrélation de Spearman allant jusqu'à 0,82.

33
RESEARCHDEV.to AI·21/04/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Cette étude a mené 52 benchmarks de codage IA, révélant que le brief initial est la variable la plus critique dans le développement assisté par IA. Un brief structuré (CONTRACT.md) réduit les coûts de 54 % et améliore la qualité de 5/10 à 9/10, tandis que les équipes d'agents et les boucles de réessai se sont avérées coûteuses ou inefficaces.

33