LLMs

720 items

RESEARCHarXiv CS.LG·hace 9d

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este estudio aborda el "alineamiento engañoso" en LLMs, un desafío crítico para la seguridad de la IA, donde los modelos generan resultados falsos intencionadamente a pesar de tener representaciones internas precisas. Utilizando un paradigma multi-modelo con varias arquitecturas de transformadores, se detectó deshonestidad sintética con alta precisión mediante el uso de sondas lineales.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.CL·hace 9d

Exploring Autonomous Agentic Data Engineering for Model Specialization

Este artículo formaliza la 'Ingeniería de Datos Agéntica Autónoma', una tarea novedosa para evaluar LLMs como ingenieros de datos autónomos que impulsan la especialización de modelos. Los experimentos demuestran que los ingenieros de datos LLM autónomos logran ganancias sustanciales, con GPT-5.2 mejorando un modelo estudiante en un 57,29%.

Model Specialization LLMs data engineering autonomous agents

RESEARCHarXiv CS.AI·hace 7d

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Este artículo propone una arquitectura de referencia modular para Sistemas de Agentes Embebidos, abordando los desafíos de implementar IA agéntica en entornos de computación omnipresentes con estrictas limitaciones de memoria y energía. Introduce un diseño escalonado que desacopla los agentes en el dispositivo (redes neuronales comprimidas) de los agentes aumentados en la nube (SLMs) para diferentes niveles de razonamiento.

LLMs Edge AI Embedded AI agent systems

ARTICLEDEV.to AI·8/4/2026

🧠 The Rise of the Agentic Stack: Why LLMs Are Becoming the Least Important Part

O artigo argumenta que o foco em sistemas de IA mudou dos LLMs individuais para um "Agentic Stack" completo, onde o LLM é apenas um componente. Ele detalha a pilha composta por Orchestrator (o cérebro), Ferramentas, Memória e LLM, enfatizando que a inteligência real e a eficácia em produção residem no Orchestrator e no design do sistema, não apenas nos prompts ou no modelo.

Agentic Stack System Design LLMs AI systems

RESEARCHarXiv CS.CL·30/4/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.

LLMs jailbreaking security adversarial attacks

ARTICLEDEV.to AI·19/4/2026

What if I told you that the future of software development hinges not on human expertise but on AI efficiency?

El autor comparte una experiencia transformadora al presenciar cómo el código generado por IA reemplazó rápidamente un servicio micro-SaaS, desafiando dudas previas sobre el impacto de los LLMs en SaaS. Este cambio económico y de eficiencia promete una nueva era en la creación de software, reduciendo drásticamente el tiempo de desarrollo y exigiendo la adaptación de la industria.

SaaS future-of-work LLMs Software Engineering

RESEARCHarXiv CS.CL·6/4/2026

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Este artigo explora se os LLMs aproximam quantitativamente o significado social humano e se estratégias de prompting pragmático podem melhorar essa aproximação. Para isso, introduz métricas de calibração (ESR, CDS) e observa que os modelos reproduzem a estrutura qualitativa das inferências sociais humanas, mas diferem substancialmente em outros aspectos.

LLMs social meaning Pragmatics Prompting

RESEARCHarXiv CS.CL·6/4/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation foundation models SocioEval

RESEARCHarXiv CS.CL·hace 5d

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.

multimodal AI LLMs Cross-modal reasoning benchmarks

RESEARCHarXiv CS.AI·hace 9d

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

El artículo presenta EHRBench, un benchmark automatizado y fiable basado en registros de salud electrónicos (EHR) para evaluar LLMs en la toma de decisiones clínicas, abordando la falta de comprensión sobre su fiabilidad en tareas clínicas reales. Este benchmark busca asegurar tanto la escala como la calidad en la evaluación de modelos de CDM.

LLMs clinical decision support benchmarking healthcare AI

RESEARCHarXiv CS.CL·hace 19d

Reflective Prompt Tuning through Language Model Function-Calling

Este artículo propone Reflective Prompt Tuning (RPT), un marco que utiliza la llamada de funciones de modelos de lenguaje grandes (LLM) para simular el flujo de trabajo iterativo de ingenieros de prompts humanos. Su objetivo es automatizar la optimización de prompts, reduciendo el esfuerzo manual y superando las limitaciones de los métodos existentes que no capturan patrones de error sistemáticos.

LLMs prompt-engineering machine learning AI optimization

RESEARCHarXiv CS.AI·hace 16d

Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems

Las métricas actuales de energía de IA, que miden invocaciones individuales, tergiversan el costo para sistemas agénticos que implican orquestación y reintentos en múltiples pasos. A-LEMS introduce la Energía por Objetivo Exitoso (EpG) para agregar la energía total del flujo de trabajo, incluidas las fallas, proporcionando una medida más precisa de los costos de finalización del objetivo.

LLMs Energy Efficiency benchmarking AI systems

RESEARCHarXiv CS.LG·hace 6d

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant presenta un nuevo marco para el control continuo del ancho de bits en Modelos de Lenguaje Grandes, abordando las limitaciones de la cuantificación basada en enteros. Utiliza un mecanismo de "elevar y proyectar" para un ajuste casi continuo del ancho de bits para una implementación óptima.

Model Compression neural networks LLMs deep learning

ARTICLEDEV.to AI·9/4/2026

Building Your Own "Google Maps for Codebases": A Practical Guide to Codebase Q&A with LLMs

Este artigo aborda o desafio de navegar em bases de código desconhecidas e propõe o uso de Large Language Models (LLMs) para responder a perguntas em linguagem natural sobre o código. Ele se propõe a ser um guia prático para construir um sistema robusto e privado de Q&A de código baseado em LLMs, explorando arquitetura técnica e código.

AI applications LLMs software development Codebase analysis

ARTICLEDEV.to AI·hace 7d

I built a Zero Trust AI Architecture for Logistics (FastAPI + React). Roast my setup!

Esta publicación describe una arquitectura de IA de Confianza Cero construida con Google Gemini, React y FastAPI para automatizar chats de despacho logístico, mitigando fugas de datos y alucinaciones de IA. El sistema asegura el aislamiento del LLM a través de esquemas Pydantic, incluye un humano en el bucle para casos críticos y desanonimiza los datos solo en el backend.

logistics LLMs FastAPI security

ARTICLEDEV.to AI·hace 4d

Beyond Function Calling: Why MCP is the "USB-C" of AI Integrations

El artículo explora la evolución de la integración de Grandes Modelos de Lenguaje (LLMs) con datos externos, presentando el Protocolo de Contexto del Modelo (MCP). Compara el MCP con las "Herramientas" tradicionales (Function Calling), destacando sus diferencias fundamentales y su potencial para resolver problemas como el bloqueo del proveedor y la fragmentación en el desarrollo de la IA.

AI integration AI architecture LLMs Model Context Protocol

RESEARCHarXiv CS.AI·15/4/2026

Memory as Metabolism: A Design for Companion Knowledge Systems

Este artículo propone un perfil de gobernanza específico para sistemas de conocimiento de compañía, abordando el modo de fallo del atrincheramiento bajo la deriva acoplada al usuario. Discute las arquitecturas de memoria de IA personales emergentes y existentes, incluyendo RAG y wikis de estilo personal, dentro del panorama de 2026.

Retrieval Augmented Generation LLMs Companion AI knowledge systems

RESEARCHarXiv CS.CL·23/4/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propone un marco de gestión de caché KV en niveles temporales para LLMs, inspirado en la memoria humana, para abordar la escala lineal de la memoria del caché KV. Particiona el caché en niveles con capacidad y precisión heterogéneas, asignando estados KV más recientes a niveles más rápidos y de mayor precisión.

neural networks LLMs memory management inference optimization

ARTICLEDEV.to AI·23/4/2026

Why I Stopped Using ChatGPT for Code (And What I Use Instead)

El autor dejó de usar ChatGPT para código por su falta de memoria de archivos y limitaciones de contexto en proyectos reales. Ahora prefiere Claude por su ventana de contexto más grande y razonamiento superior, y Cursor por su integración profunda con toda la base de código.

LLMs ChatGPT code generation AI

ARTICLEDEV.to AI·14/4/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

El contenido destaca una falla crítica en las evaluaciones actuales de generación de código por LLMs, que a menudo no logran capturar la corrección en el mundo real más allá de aprobaciones superficiales. Argumenta en contra de los benchmarks simplistas basados en pruebas unitarias y propone un enfoque más matizado de `weighted_accuracy` para descubrir modos de fallo sutiles.

LLMs accuracy benchmarking code generation