← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·8/4/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
RESEARCHDEV.to AI·hace 18d

Hugging Face: New Research Highlights Value of Specialized AI Models

Hugging Face publicó una investigación de Dharma AI el 22 de mayo de 2026, destacando que los modelos de IA especializados pueden superar a los modelos más grandes y de propósito general en tareas específicas. El estudio sugiere un cambio estratégico en la adquisición de IA, priorizando el rendimiento y la eficiencia específicos de la tarea.

29
RESEARCHarXiv CS.LG·hace 20d

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.

29
RESEARCHarXiv CS.CL·hace 15d

Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

Esta investigación explora la capacidad de los Grandes Modelos de Lenguaje (LLMs) para inferir el conocimiento de dominio individual directamente de los registros de comunicación de Slack a largo plazo. Al evaluar siete modelos contra las calificaciones de habilidades autoinformadas, Gemini 2.5 Flash obtuvo el error más bajo, demostrando la viabilidad y los límites actuales del mapeo automatizado de la experiencia.

28
RESEARCHarXiv CS.LG·23/4/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

«Expert Upcycling» introduce un método para expandir progresivamente la capacidad de Mixture-of-Experts (MoE) en grandes modelos de lenguaje durante el pre-entrenamiento continuo. Aumenta el número de expertos mediante duplicación y extensión del enrutador para una inicialización optimizada, con el fin de reducir los costos de entrenamiento y mantener el costo de inferencia por token.

28
ARTICLEDEV.to AI·10/4/2026

AI21 Labs — Deep Dive

AI21 Labs é uma empresa israelense de IA e produto, um player significativo no espaço de IA generativa, competindo com gigantes como OpenAI. A empresa escalou seus modelos de linguagem de 1.5 bilhões para até 398 bilhões de parâmetros, oferecendo produtos como o assistente de escrita Wordtune e o modelo de contexto longo Jamba.

28
ARTICLEDEV.to AI·2/5/2026

From prompt engineering to context engineering

El artículo propone un cambio crucial de la ingeniería de prompts a la ingeniería de contexto, argumentando que muchos fallos de IA provienen de la falta de información relevante, y no de una mala redacción. La ingeniería de contexto implica proporcionar deliberadamente a la IA datos cruciales, como instrucciones del sistema, documentación del proyecto y archivos fuente, antes de que actúe.

28
ARTICLEDEV.to AI·22/4/2026

A Looming Crisis of AI Generated Text

El artículo aborda la transición de la asistencia a la sustitución de texto por IA, impulsada por modelos como Mythos, y su profundo impacto en la alfabetización y la educación. El autor, que trabaja en aprendizaje automático y literatura, rechaza la idea de abandonar la escritura humana a pesar de la eficacia de la IA.

28
RESEARCHarXiv CS.AI·14/4/2026

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

Este artículo presenta Vigil, un nuevo sistema de agente de IA proactivo diseñado para apoyar a los analistas humanos durante las interacciones de soporte en plataformas de servicios en la nube. A diferencia de los agentes reactivos, Vigil permanece involucrado durante todo el ciclo de vida de la resolución, aprendiendo de casos no resueltos y brindando asistencia continua para reducir la carga de trabajo humana.

28
RESEARCHarXiv CS.CL·14/4/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Este artículo presenta un pipeline para generar diálogos médicos sintéticos en neerlandés utilizando un Large Language Model (LLM) ajustado para abordar la escasez de datos clínicos debido a restricciones de privacidad. Las evaluaciones revelaron una gran variedad léxica, pero un flujo de conversación guionizado y problemas de especificidad del dominio en la revisión cualitativa.

28
RESEARCHarXiv CS.AI·hace 4d

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Este artículo analiza las estrategias de comunicación entre agentes en sistemas multiagente basados en LLMs, descubriendo que el lenguaje natural sin restricciones puede inflar el uso de tokens y afectar el rendimiento. Propone PACT (Protocolized Action-state Communication and Transmission), un método para optimizar la comunicación proyectando las salidas de los agentes en registros de estado-acción compactos.

28
RESEARCHarXiv CS.AI·7/4/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

28
RESEARCHarXiv CS.AI·7/4/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28