← heapsort-ai

efficiency

106 items

DOCHugging Face (YouTube)·hace 10h

Build Small with OpenBMB

El título "Build Small with OpenBMB" sugiere contenido relacionado con el desarrollo de modelos de IA compactos o eficientes utilizando el framework OpenBMB. Probablemente discute métodos o herramientas para crear soluciones de IA más pequeñas y manejables.

Build Small with OpenBMB
59
RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
RESEARCH↑ trendingReddit r/MachineLearning·6/5/2026

Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

Transformers with Selective Access to Early Representations [R]
42
RESEARCHarXiv CS.AI·17/4/2026

Mistake gating leads to energy and memory efficient continual learning

Este estudio introduce el 'aprendizaje con compuerta de errores memorizados', una regla de plasticidad biológicamente plausible que actualiza las sinapsis solo ante errores de clasificación. Esto reduce las actualizaciones de la red entre un 50% y un 80%, mejorando la eficiencia energética y de memoria en escenarios de aprendizaje continuo y en línea.

35
RESEARCHarXiv CS.LG·20/4/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia presenta un método de selección de capas guiado por gradiente para el ajuste fino de LoRA, que identifica las capas más relevantes para la tarea y aplica adaptadores de forma asimétrica. Este enfoque logra una aceleración de entrenamiento del 15-28% en diversos modelos de lenguaje grandes, manteniendo el comportamiento posterior.

32
RESEARCHarXiv CS.CL·hace 6d

Adaptive Latent Agentic Reasoning

Esta investigación presenta el Razonamiento Latente Agente Adaptativo (ALAR), un marco de modo dual diseñado para mejorar la eficiencia de los agentes LLM. ALAR utiliza el razonamiento latente compacto para tareas rutinarias y escala a un razonamiento explícito de cadena de pensamiento cuando se necesita una deliberación más profunda, manteniendo o mejorando la precisión de la tarea con ganancias sustanciales de eficiencia.

29
RESEARCHarXiv CS.AI·hace 4d

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Este artículo analiza las estrategias de comunicación entre agentes en sistemas multiagente basados en LLMs, descubriendo que el lenguaje natural sin restricciones puede inflar el uso de tokens y afectar el rendimiento. Propone PACT (Protocolized Action-state Communication and Transmission), un método para optimizar la comunicación proyectando las salidas de los agentes en registros de estado-acción compactos.

28
RESEARCHarXiv CS.CL·4/5/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Esta investigación explora métodos eficientes para evaluar Grandes Modelos de Audio (LAMs) utilizando subconjuntos mínimos de datos, logrando una alta correlación con los benchmarks completos. También demuestra que los modelos de regresión entrenados en estos subconjuntos pueden predecir mejor las preferencias humanas para la satisfacción del usuario que los benchmarks completos.

28
RESEARCHarXiv CS.LG·23/4/2026

WorkflowGen:an adaptive workflow generation mechanism driven by trajectory experience

WorkflowGen aborda la alta sobrecarga e inestabilidad de los agentes LLM en tareas complejas, proponiendo un marco adaptativo impulsado por la experiencia de trayectoria para la generación de flujos de trabajo. Captura trayectorias de ejecución completas para extraer conocimiento reutilizable y realiza una generación ligera en nodos variables, reduciendo significativamente el uso de tokens y mejorando la eficiencia.

28
DOCDEV.to AI·9/5/2026

Automating Film Festival Feedback with AI

Este contenido detalla un método para que los festivales de cine automaticen el 90% de su proceso de retroalimentación utilizando IA, reservando un 10% crucial para la curación humana y mantener la comunicación personalizada. Describe los pasos para estructurar datos y aprovechar los asistentes de IA para transformar las puntuaciones de las rúbricas en comentarios narrativos constructivos y no robóticos para los cineastas.

28