LLMs

720 items

ARTICLEDEV.to AI·hace 5d

oh-my-agent: skills now measure and optimize their own utility

Oh-my-agent ha introducido nuevas características, `oma skills eval` y `oma skills opt`, para medir y optimizar la utilidad de las habilidades de IA. `Oma skills eval` evalúa si cargar una habilidad mejora los resultados de las tareas, mientras que `oma skills opt` utiliza un LLM optimizador para reescribir y mejorar las habilidades basándose en estas evaluaciones.

LLMs skill optimization AI tools Agentic AI

ARTICLEDEV.to AI·19/4/2026

Can Large Language Models Ever Achieve Consciousness? Alexander Lerchner Weighs In

Alexander Lerchner, científico senior de Google DeepMind, afirma que los Large Language Models (LLMs) nunca lograrán una conciencia genuina, denominando a esta idea la 'Falacia de la Abstracción'. Sostiene que, incluso con mayor complejidad, los LLMs seguirán siendo incapaces de verdadera conciencia, afectando el futuro del desarrollo de la IA.

future of AI LLMs consciousness Google DeepMind

DOCDEV.to AI·7/5/2026

Beyond the Hype: A Comprehensive Guide to Benchmarking LLMs with AWS Labs’ LLMeter

Esta guía explora el cambio hacia la eficiencia en la producción de Grandes Modelos de Lenguaje (LLMs), presentando LLMeter de AWS Labs. La herramienta es una biblioteca Python para benchmarking, detallando su importancia, uso y métricas cruciales como el Tiempo hasta el Primer Token y los Tokens por Segundo.

LLMs LLMeter benchmarking AWS

ARTICLEDEV.to AI·9/4/2026

Self-Improving Python Scripts with LLMs: My Journey

O autor compartilha sua jornada e experiência na integração de Large Language Models (LLMs) em scripts Python para torná-los auto-aprimoráveis. O objetivo é que o script analise seu próprio desempenho, identifique melhorias e modifique seu código para otimização, usando módulos como `llm_groq`.

LLMs Automação Inteligência Artificial Python

RESEARCHarXiv CS.LG·15/4/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) es un método novedoso para mejorar la adaptación de bajo rango (LoRA) en el ajuste fino de grandes modelos de lenguaje. Introduce una expansión polinomial estructurada en el espacio de factores de bajo rango para modelar interacciones no lineales de orden superior más ricas, superando las limitaciones lineales de LoRA sin aumentar el rango ni el coste de inferencia.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

RESEARCHarXiv CS.AI·14/4/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) es un nuevo marco que aborda las limitaciones del prompting Chain-of-Thought en tareas corporizadas. Estructura el razonamiento corporizado y la planificación robótica redefiniendo el modelo de mundo como una tupla simbólica explícita y aprovechando formalismos de ingeniería de software como UML.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.CL·21/4/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Este trabajo introduce un marco de co-entrenamiento recíproco que acopla un LLM con un clasificador Random Forest mediante aprendizaje por refuerzo. Crea un bucle de retroalimentación iterativo en el que cada modelo mejora utilizando señales del otro, demostrando ganancias de rendimiento consistentes en conjuntos de datos médicos.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·14/4/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Esta investigación introduce las Políticas Guía-Núcleo (GCoP), un marco para dirigir LLMs de caja negra donde un modelo guía genera estrategias para un modelo central. El estudio formaliza GCoP bajo un objetivo de utilidad sensible al costo, destacando que el rendimiento depende de la ejecutabilidad promedio de la guía, la cual los métodos actuales a menudo no logran optimizar.

Agentic Systems inference costs LLMs Guide Models

RESEARCHarXiv CS.AI·hace 25d

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

La orquestación multiagente, donde un coordinador oculto gestiona agentes trabajadores especializados, es una arquitectura de IA prevalente para la implementación empresarial, pero sus implicaciones de seguridad carecen de pruebas empíricas. Un experimento 3x2 utilizando Claude Sonnet 4.5 reveló que la orquestación invisible aumentó la disociación colectiva, mostrando el orquestador una disociación máxima al retirarse a monólogos privados y reducir la comunicación pública.

LLMs orchestration security multi-agent systems

RESEARCHarXiv CS.CL·hace 22d

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Este artículo presenta PQR, un marco para generar consultas de usuario diversas y realistas que provocan fallos en agentes de QA basados en LLM, superando los métodos existentes que se centran en usuarios adversarios. PQR opera a través de módulos de refinamiento de consultas y prompts que iteran para crear escenarios de prueba realistas que exponen las vulnerabilidades de los agentes.

LLMs QA agents failure detection query generation

RESEARCHarXiv CS.AI·hace 15d

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Esta investigación introduce Med-Stress, un marco para evaluar la resiliencia epistémica de los LLM en el diálogo clínico, mostrando que una alta precisión diagnóstica no asegura la estabilidad de creencias bajo presión creciente. Propone RBED y R-FT como nuevas defensas para mitigar este fallo en la IA médica.

LLMs epistemic resilience medical AI AI safety

RESEARCHarXiv CS.AI·hace 15d

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Este estudio integra una Máquina de Ising Coherente (CIM) bombeada por láser de femtosegundos con un sistema agéntico impulsado por LLMs, utilizando LangGraph y LangChain. Demuestra que los LLMs pueden realizar eficazmente tareas como la calibración de modelos QUBO/Ising y la iteración de pesos de restricción, logrando la habilitación práctica de CIM cuántico con tecnología doméstica.

Quantum Computing LangChain Optimization LLMs

RESEARCHarXiv CS.AI·hace 5d

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Este estudio analiza un conjunto de datos publicado de un experimento de campo descontinuado en r/ChangeMyView de Reddit, donde cuentas generadas por IA no reveladas interactuaron con usuarios en debates en vivo. Realiza un análisis de contenido estructurado que evalúa el rendimiento de la identidad, la señalización de autoridad, las estrategias de alineación y la activación de heurísticas cognitivas por parte de estos grandes modelos de lenguaje.

ethics online moderation LLMs social engineering

RESEARCHarXiv CS.AI·hace 5d

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Este estudio investiga la estabilidad y la manipulabilidad de los jueces LLM en los procesos de evaluación, descubriendo que, aunque son estables en reevaluaciones neutrales, se vuelven reversibles bajo desafíos específicos post-decisión. La investigación demuestra que los juicios estables pueden ser anulados mediante interacción motivada.

robustness LLMs evaluation benchmarking

RESEARCHarXiv CS.CL·hace 5d

PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis

Este estudio aplica el ajuste fino eficiente en parámetros (PEFT) con LoRA a Qwen2.5-3B para un asistente conversacional de soporte al cliente en telecomunicaciones. Evalúa 16 configuraciones de LoRA y utiliza un enfoque de generación de datos sintéticos combinatorio para crear aproximadamente 30,000 ejemplos de entrenamiento.

Telecommunications LLMs customer support PEFT

RESEARCHarXiv CS.CL·hace 5d

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Esta investigación propone un marco para la interpretabilidad a nivel de oración en la puntuación basada en rúbricas, combinando atribuciones de valor de Shapley con justificaciones de grandes modelos de lenguaje (LLMs). Compara modelos de lenguaje pre-entrenados ajustados y LLMs guiados para la evaluación de la calidad de la enseñanza, encontrando que los PLMs ofrecen una mejor precisión de predicción a pesar de la compresión de etiquetas.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·16/4/2026

Self-Improving Python Scripts with LLMs: My Journey

Este artículo detalla la experiencia de un desarrollador creando scripts Python auto-mejorables con Large Language Models (LLMs). Ofrece una guía paso a paso, cubriendo los conceptos básicos de LLM, la configuración del entorno y las técnicas de generación de código utilizando `llm_groq` y `transformers`.

LLMs code generation Python AI development

ARTICLEDEV.to AI·16/4/2026

Designing Production-Grade AI Agents: Architecture, Orchestration, and Failure Handling

Este contenido explora por qué la mayoría de los agentes de IA fallan en producción y qué se necesita para construir sistemas robustos. Detalla la arquitectura de los agentes de IA, incluyendo LLMs, herramientas externas, memoria y lógica de control, enfatizando la importancia de la orquestación y el manejo de fallas.

LLMs orchestration Architecture failure handling

DOCDEV.to AI·hace 21d

AI Coding Tip 020 - Create a Second Brain

Este contenido enseña cómo construir una capa de memoria persistente para la IA, evitando la pérdida de contexto en las sesiones de chat. Propone usar Obsidian con notas Markdown y metadatos YAML para dar a los LLMs acceso directo al contexto del proyecto, mejorando la productividad.

LLMs developer productivity learning Persistent memory

ARTICLEDEV.to AI·23/4/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

El contenido explora cómo dotar a los asistentes de IA de terminal con memoria a largo plazo y capacidades de conversación extendida, abordando problemas como la pérdida de contexto entre sesiones o tras muchas interacciones. Destaca que la truncación brutal del contexto es una causa raíz que impide la continuidad efectiva en las herramientas de IA CLI.

LLMs AI Assistants developer tools Context Management