← heapsort-ai

prompt engineering

249 items

ARTICLEDEV.to AI·hace 3h

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Un desarrollador narra cómo el lanzamiento de Claude Fable 5 de Anthropic dejó obsoletas 13 de sus 31 habilidades de IA en producción debido a cambios en las directrices de prompting y el comportamiento de la API. Las instrucciones antiguas ahora degradan activamente la calidad de la salida del nuevo modelo, requiriendo una reevaluación completa de su flota de agentes autónomos.

62
ARTICLEDEV.to AI·14/4/2026

Teaching Your AI to Read: Extracting Key Facts from Scanned Documents and PDFs

El artículo aconseja utilizar prompts específicos e investigativos, en lugar de comandos genéricos, para enseñar a la IA a extraer hechos clave de documentos escaneados y PDFs. Este método transforma la IA en un analista enfocado, permitiendo la extracción estructurada y automatizada de datos con herramientas como Make.com y ChatGPT.

53
RESEARCH↑ trendingReddit r/MachineLearning·9/4/2026

[R] Forced Depth Consideration Reduces Type II Errors in LLM Self-Classification: Evidence from an Exploration Prompting Ablation Study - (200 trap prompts, 4 models, 8 Step-0 variants) [R]

Este estudo aborda erros de Tipo II na classificação de tarefas por LLMs, onde prompts aparentemente simples exigem compreensão profunda. A pesquisa demonstrou que prompts de exploração aberta ("What's really going on here?") reduzem significativamente esses erros em comparação com prompts de extração direta.

45
CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

El usuario informa una experiencia muy positiva y efectiva con el PI Coding Agent, utilizando un modelo local Qwen3.6 35b para proyectos de producción. El éxito se atribuyó a un archivo de "skill" personalizado que impone un flujo de trabajo de planificación, asegurando la ejecución paso a paso y la aprobación del plan antes de cualquier codificación.

42
RESEARCH↑ trendingReddit r/MachineLearning·21/4/2026

156 landing-page generations through Gemma 4 31B with 52 different system prompts. Rule-dense "design heuristics" prompts scored below the empty baseline. [R]

Este contenido describe una investigación que generó 156 páginas de aterrizaje utilizando el modelo Gemma 4 31B, empleando 52 prompts de sistema diferentes. Curiosamente, los prompts con heurísticas de diseño ricas en reglas obtuvieron una puntuación inferior a la línea de base vacía.

42
ARTICLE↑ trendingHacker News (AI)·hace 11d

You don't know how to use AI

Este artículo explora la idea de que muchos usuarios no aprovechan todo el potencial de la IA, sugiriendo que el problema reside en cómo la abordamos. Ofrece ideas sobre cómo optimizar la interacción con las herramientas de IA para lograr resultados superiores y una mayor productividad.

38
ARTICLE↑ trendingReddit r/MachineLearning·19/4/2026

Converting XQuery to SQL with Local LLMs: Do I Need Fine-Tuning or a Better Approach? [P]

El autor describe el desafío de convertir XQuery a SQL usando LLMs locales en un contexto empresarial, enfrentando la limitación de datos de entrenamiento y la complejidad de las consultas. Experimentó con enfoques basados en parsing y ingeniería de prompts, pero ambos fallaron para casos más variados o complejos.

38
ARTICLEDEV.to AI·22/4/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fundador en solitario creó un flujo de trabajo de evaluación n8n para agentes de IA, realizando pruebas A/B de prompts con GPT-4o puro versus GPT-4o con un andamiaje de razonamiento, utilizando un evaluador Gemini ciego. Esta herramienta permite a los desarrolladores probar el rendimiento de los agentes en sus propias tareas, centrándose en cómo el andamiaje afecta la profundidad, la adulación y los procedimientos de diagnóstico.

35
DOCDEV.to AI·hace 2d

Anthropic Claude MCP: Run Claude as a Sub-Agent Inside Claude

El servidor Anthropic Claude MCP permite anidar modelos Claude (Haiku, Sonnet, Opus) como subagentes invocables dentro de una sesión principal de Claude. Esto posibilita la construcción de flujos de trabajo multiagente sofisticados, donde un agente principal orquesta subagentes especializados para razonamiento paralelo o secuencial, optimizando tareas con prompts personalizados y caché de prompts.

35
ARTICLEDEV.to AI·22/4/2026

Stop Paying OpenAI to Read Garbage: The Two-Stage Agent Pipeline

Este artículo critica la práctica común de introducir datos crudos y sin formato directamente en los prompts de IA, lo que genera costos exorbitantes y un bajo rendimiento del agente. Ilustra cómo el enfoque de un desarrollador junior provocó que un agente de IA entrara en un bucle infinito al intentar analizar JSON malformado, subrayando la necesidad de una ingeniería de datos adecuada en lugar de usar LLMs como analizadores.

34
RESEARCHarXiv CS.CL·hace 18d

PromptNCE: Pointwise Mutual Information Predictions Using Only LLMs and Contrastive Estimation Prompts

Este artículo presenta PromptNCE, un método para estimar la información mutua puntual (PMI) utilizando solo LLMs y prompts de estimación contrastiva, evitando la necesidad de críticos específicos de la tarea. Introduce un benchmark con PMI derivado de humanos y demuestra que PromptNCE logra una correlación de Spearman de hasta 0,82.

33
RESEARCHDEV.to AI·21/4/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Este estudio realizó 52 benchmarks de codificación con IA, descubriendo que la variable más importante en el desarrollo asistido por IA es el brief inicial. Un brief estructurado (CONTRACT.md) reduce los costos en un 54% y eleva la calidad de 5/10 a 9/10, mientras que los equipos de agentes y los bucles de reintento resultaron ineficaces o perjudiciales.

33