LLMs

714 items

ARTICLEDEV.to AI·hace 1d

Top AI App Development Trends Every Business Should Watch in 2026

La Inteligencia Artificial se ha convertido en la base de la innovación digital moderna, con empresas en 2026 aprovechando aplicaciones impulsadas por IA para automatizar operaciones y personalizar experiencias. El rápido avance de la IA Generativa, los LLM y la IA multimodal está transformando el desarrollo de aplicaciones, siendo esencial para las empresas comprender estas tendencias para seguir siendo competitivas.

AI applications LLMs AI trends AI development

ARTICLEDEV.to AI·15/4/2026

Technical Guide to GEO Optimization

Esta guía resalta un cambio fundamental en el comportamiento del usuario hacia la consulta de modelos de IA para problemas complejos, haciendo que el SEO tradicional sea insuficiente. Presenta la Optimización de Motores Generativos (GEO), un nuevo marco desarrollado por TeviroAI, que optimiza el contenido para la ingesta de modelos de IA mapeando relaciones entre entidades en lugar de palabras clave.

LLMs GEO AI Generative Engine Optimization

RESEARCHarXiv CS.AI·hace 1d

SafeGene: Reusable Adapters for Transferable Safety Alignment

SafeGene propone un módulo adaptador de seguridad reutilizable para abordar el desafío recurrente de mantener la alineación de seguridad en LLMs de código abierto ajustados. Desacopla las capacidades de seguridad de las actualizaciones específicas de tareas, tratándolas como una representación de adaptador independiente y transferible para mitigar la vulnerabilidad a las indicaciones maliciosas.

LLMs security

RESEARCHarXiv CS.AI·hace 1d

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

El artículo presenta Lean4Agent, un marco que utiliza Lean4 para el modelado y la verificación formal del comportamiento de los agentes, especialmente en flujos de trabajo de múltiples pasos impulsados por LLM. Aborda la falta de métodos formales en los sistemas de agentes actuales, permitiendo verificaciones de consistencia semántica y la localización de fallos en tiempo de ejecución.

Lean4 LLMs workflow automation Formal verification

RESEARCHarXiv CS.CL·hace 1d

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Esta investigación presenta PolyFact, un conjunto de datos de preguntas y respuestas factuales multilingüe, para abordar la inconsistencia factual entre idiomas en los LLMs. Se encuentra que el aprendizaje por refuerzo a través de GRPO mejora consistentemente la recuperación factual entre idiomas y la generalización en comparación con el ajuste fino supervisado.

Multilingual AI LLMs reinforcement learning machine learning

RESEARCHarXiv CS.CL·hace 1d

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Se introduce UnpredictaBench, un nuevo benchmark para evaluar la capacidad de los LLM de capturar verdaderas distribuciones subyacentes, abordando su tendencia a colapsar hacia respuestas únicas. Ofrece 448 problemas y una métrica KS@N para probar resultados de muestreo de diversas distribuciones objetivo.

AI models LLMs evaluation Benchmarking

RESEARCHarXiv CS.CL·hace 1d

What Do People Actually Want From AI? Mapping Preference Plurality

Este estudio investiga lo que la gente realmente quiere de los sistemas de IA, analizando 1.500 respuestas abiertas de 75 países. Revela que los métodos actuales de ajuste fino de LLM, como el RLHF, tienen limitaciones al agregar preferencias diversas y a menudo contradictorias, destacando la pluralidad de valores e interpretaciones.

LLMs Human Alignment RLHF User studies

RESEARCHarXiv CS.LG·hace 1d

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Esta investigación propone "program-of-layers (PoLar)" para LLMs, que permite omitir o repetir dinámicamente capas preentrenadas durante la inferencia para lograr una precisión igual o mejor con rutas de ejecución más cortas. Se propone una red de predicción ligera para generar estos programas personalizados, mostrando un rendimiento mejorado en pruebas de razonamiento matemático.

neural networks mathematical reasoning inference LLMs

ARTICLEDEV.to AI·23/4/2026

Serving Infrastructure — Deep Dive + Problem: Softmax Function

La infraestructura de servicio es fundamental para implementar y gestionar Grandes Modelos de Lenguaje (LLMs) en entornos de producción, asegurando la entrega eficiente y fiable de predicciones. Conecta el desarrollo del modelo con su aplicación real, impactando directamente el rendimiento, la escalabilidad y la mantenibilidad.

Scalability Optimization LLMs deployment

ARTICLEDEV.to AI·hace 14h

Vector Databases in AI Projects: Are They Really Necessary?

Este artículo cuestiona la necesidad absoluta de las bases de datos vectoriales en proyectos de IA, especialmente aquellos que utilizan LLMs y RAG. Su objetivo es explorar sus ventajas, desventajas, alternativas y proporcionar ideas para mejores decisiones arquitectónicas.

AI architecture LLMs Vector Databases RAG

ARTICLEDEV.to AI·hace 14h

Artificial Intelligence in 2026: How AI Is Reshaping Software Development

La Inteligencia Artificial ha evolucionado rápidamente hasta convertirse en una tecnología central que está remodelando el desarrollo de software moderno, influyendo en la generación de código, la automatización y diversos sectores industriales. Para 2026, la IA es considerada una tecnología fundamental tanto para empresas como para desarrolladores, con una creciente exploración de LLMs, agentes de IA y frameworks de aprendizaje automático.

LLMs Software Development machine learning artificial intelligence

ARTICLEDEV.to AI·17/4/2026

How I Use OpenCode, Oh-My-OpenCode-Slim, and OpenSpec to Build My Own AI Coding Environment

El autor comparte su experiencia en la construcción de un entorno de codificación de IA personalizado utilizando herramientas de código abierto como OpenCode, Oh-My-OpenCode-Slim y OpenSpec. Afirma que los modelos de código abierto de vanguardia, cuando se utilizan correctamente con las herramientas y especificaciones adecuadas, pueden manejar las tareas diarias de codificación de manera efectiva, destacando el poder de la comunidad.

LLMs open-source AI coding environment multi-agent systems

RESEARCHarXiv CS.CL·hace 19h

Post-training is (Massive) Supervised Learning

Este artículo sostiene que el paradigma predominante de post-entrenamiento para LLMs, que incluye SFT y RL, revierte efectivamente al enfoque de "pre-entrenar y luego ajustar", adaptando los modelos explícitamente a benchmarks específicos. La evidencia empírica demuestra que los modelos post-entrenados desde cero pueden ofrecer un rendimiento significativo en conjuntos de datos de razonamiento.

LLMs machine learning Benchmarking Training

RESEARCHarXiv CS.AI·hace 19h

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem es un marco de streaming eficiente en memoria para LLMs audiovisuales, diseñado para superar las limitaciones de la inferencia de video largo debido al aumento de tokens y cachés KV. Emplea asignación de memoria consciente de la modalidad y selección de memoria sensible a perturbaciones para preservar estados KV informativos, mejorando la compresión y la comprensión a largo plazo.

LLMs Audio-Visual AI deep learning Streaming

RESEARCHarXiv CS.CL·hace 19h

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

El artículo presenta TinyJudge, un framework que utiliza un conjunto de modelos de lenguaje pequeños especializados (0.6B) para proporcionar recompensas ligeras y de alta precisión para restricciones suaves e inverificables en el seguimiento de instrucciones por LLMs. Este enfoque aborda los cuellos de botella del "reward hacking" y el alto costo computacional de los métodos tradicionales de alineación de restricciones.

Tiny Models Model Alignment LLMs reinforcement learning

RESEARCHarXiv CS.CL·hace 19h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) introduce un marco para representar grandes modelos de lenguaje aprovechando el espacio de interpretabilidad. Aborda los desafíos en la comparación sistemática de modelos al agregar atribuciones de características basadas en gradientes para capturar patrones de sensibilidad de entrada específicos del modelo.

LLMs model representation security model comparison

RESEARCHarXiv CS.CL·hace 19h

BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

El documento introduce BEACON, un marco de caja negra para detectar alucinaciones en LLMs, operando solo con las salidas del modelo sin acceso interno. Extrae un vector de características de 31 dimensiones, y un clasificador logra 0,8123 AUROC, superando las bases de referencia.

LLMs hallucination machine learning detection

ARTICLEDEV.to AI·hace 1d

Keeping a chat app's token bill flat as conversations grow

Este artículo aborda el problema del aumento de los costes de tokens en las aplicaciones de chat con IA a medida que las conversaciones se alargan, ya que todo el historial de la conversación se reenvía en cada turno. Se presenta una solución que utiliza un "resumen rodante" combinado con una "ventana literal" para optimizar el uso de tokens y controlar los gastos.

token management chatbots LLMs Cost Optimization

ARTICLEDEV.to AI·hace 2d

The Five Faculties: A Tour of SAFi's Cognitive Architecture

El contenido introduce SAFi (Self-Alignment Framework Interface), una arquitectura de gobernanza de IA que se aparta de la alineación a nivel de prompt al dividir la cognición en cinco facultades especializadas. Este sistema busca desvincular la generación, evaluación y ejecución de la IA, comenzando con una barrera de seguridad previa a la generación para prevenir inyecciones de prompts y otras amenazas.

AI architecture LLMs AI alignment security

ARTICLE↑ trendingHacker News (AI)·hace 5d

OpenAI CEO Sam Altman admits AI token costs are becoming 'an issue'

Sam Altman, CEO de OpenAI, admite que los costos de los tokens de IA se están convirtiendo en un problema importante para la empresa. OpenAI busca mejorar el valor y la eficiencia, ya que el gasto excesivo se ha convertido en un meme.

AI costs OpenAI LLMs efficiency