← heapsort-ai

Aprendizado por Reforço

3 items

RESEARCHarXiv CS.AI·07/04/2026

Contextual Control without Memory Growth in a Context-Switching Task

Este artigo propõe uma nova arquitetura recorrente baseada em intervenção para lidar com a tomada de decisões sequenciais dependentes de contexto, sem a necessidade de aumentar a dimensionalidade da memória recorrente. O método atua intervindo em um estado latente recorrente compartilhado, utilizando um operador aditivo indexado por contexto.

28
RESEARCHDEV.to AI·08/04/2026

Generative Simulation Benchmarking for wildfire evacuation logistics networks in carbon-negative infrastructure

O autor explora como a IA generativa e a simulação, normalmente usadas no e-commerce, podem ser aplicadas em logística de evacuação de incêndios florestais dentro de infraestruturas carbono-negativas. Essa pesquisa surgiu da percepção de que a IA avançada para bens de consumo contrastava com planos de evacuação desatualizados durante a temporada de incêndios de 2020.

27
RESEARCHarXiv CS.AI·07/04/2026

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Este trabalho apresenta o BioAlchemy, um pipeline que aborda o desalinhamento de tópicos em conjuntos de dados de raciocínio de biologia existentes. Ele gera o BioAlchemy-345K, um novo conjunto de dados de treinamento com mais de 345 mil problemas de raciocínio científico verificáveis para aplicação em aprendizado por reforço em pesquisa biológica.

27