machine learning

790 items

ARTICLEDEV.to AI·4/26/2026

How AI-Driven Model Distillation is Reshaping the Future of Technology

This article explores how AI-driven model distillation is revolutionizing the technological landscape. It delves into the process of creating smaller, more efficient AI models while retaining high performance, thereby impacting various industries.

Innovation machine learning Technology Model Distillation

ARTICLEOpenAI Blog·29d ago

What Parameter Golf taught us about AI-assisted research

Parameter Golf brought together over 1,000 participants and 2,000 submissions to explore AI-assisted machine learning research. The event focused on coding agents, quantization, and novel model design under strict constraints.

research machine learning quantization AI

RESEARCHarXiv CS.AI·4/7/2026

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

resource-efficient models LLMs machine learning discharge prediction

RESEARCHarXiv CS.LG·4/8/2026

Learning-Based Multi-Criteria Decision Making Model for Sawmill Location Problems

Este estudo propõe um framework de Tomada de Decisão Multicritério Baseado em Aprendizado (LB-MCDM) que integra machine learning com análise espacial GIS para otimizar a localização de serrarias. Demonstrado através de um caso de estudo no Mississippi, o modelo aplica cinco algoritmos de ML para identificar locais adequados, destacando o Random Forest Classifier como o de melhor desempenho e utilizando SHAP para determinar a importância dos critérios.

sawmill location Random Forest machine learning GIS

RESEARCHarXiv CS.CL·4/7/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.CL·4/8/2026

Memory Dial: A Training Framework for Controllable Memorization in Language Models

Memory Dial é um framework de treinamento que permite controlar a memorização em modelos de linguagem de forma explícita. Ele utiliza um parâmetro $\alpha$ para ajustar a pressão de memorização, aumentando a acurácia em exemplos vistos sem impactar a acurácia em exemplos não vistos.

language models controllability machine learning memorization

RESEARCHarXiv CS.LG·4/8/2026

Energy-Based Dynamical Models for Neurocomputation, Learning, and Optimization

Este artigo explora avanços em sistemas dinâmicos para computação, inspirados na neurociência, com o objetivo de melhorar a escalabilidade, robustez e eficiência energética em IA. O foco está em modelos dinâmicos baseados em energia, como redes de Hopfield e máquinas de Boltzmann, que codificam informações através de fluxos de gradiente.

neurocomputation hopfield networks machine learning energy-based models

RESEARCHarXiv CS.CL·4/7/2026

Text Summarization With Graph Attention Networks

Este estudo explorou o uso de informações de grafos (RST e Co-referência) para sumarização de texto, descobrindo que Redes de Atenção Gráficas não melhoraram o desempenho, enquanto um Perceptron Multicamadas obteve sucesso. Adicionalmente, foi criado um novo benchmark para sumarização baseada em grafos ao anotar o dataset XSum com informações RST.

Graph Attention Networks Rhetorical Structure Theory machine learning Natural Language Processing

RESEARCHarXiv CS.LG·4/8/2026

Learning Stable Predictors from Weak Supervision under Distribution Shift

Este artigo de pesquisa formaliza o 'supervision drift' em experimentos CRISPR-Cas13d, analisando a robustez de modelos sob shift de distribuição, inclusive quando o mecanismo de supervisão muda. Utilizando um benchmark não-IID, demonstra bom desempenho in-domain, mas falha na transferência temporal e apenas sucesso parcial na transferência entre linhagens celulares.

robustness distribution shift Transfer Learning machine learning

RESEARCHarXiv CS.LG·4/6/2026

SIEVE: Sample-Efficient Parametric Learning from Natural Language

SIEVE propõe um método para aprendizado paramétrico com eficiência de amostra a partir de contexto de linguagem natural, necessitando de apenas três exemplos de consulta. Ele emprega uma pipeline de geração de dados sintéticos, SIEVE-GEN, que decompõe o contexto para gerar resultados de maior qualidade e destilar o contexto no modelo.

language models Sample Efficiency contextual learning machine learning

RESEARCHarXiv CS.LG·4/6/2026

Differentiable Symbolic Planning: A Neural Architecture for Constraint Reasoning with Learned Feasibility

Differentiable Symbolic Planning (DSP) é uma nova arquitetura neural que aborda a dificuldade das redes neurais com o raciocínio por restrições, permitindo o raciocínio simbólico discreto e diferenciável. Integrada a um Universal Cognitive Kernel (UCK), a UCK+DSP demonstra alta precisão e generalização em benchmarks de raciocínio por restrições e planejamento.

neural networks Constraint Reasoning Differentiable Symbolic Planning machine learning

RESEARCHarXiv CS.LG·4/6/2026

YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

YC Bench é um novo benchmark em tempo real para prever o desempenho inicial de startups em lotes da Y Combinator. Ele utiliza um sistema de pontuação pré-Demo Day, baseado em sinais públicos de tração e visibilidade web, permitindo a avaliação rápida de modelos de previsão de sucesso.

early stage startups startup performance Y Combinator machine learning

RESEARCHarXiv CS.LG·4/6/2026

Homophily-aware Supervised Contrastive Counterfactual Augmented Fair Graph Neural Network

Este trabalho propõe um novo modelo para treinar Redes Neurais Gráficas (GNNs) sensíveis à justiça, aprimorando o framework CAF. A abordagem utiliza uma estratégia de treinamento em duas fases, editando o grafo para ajustar a homofilia e integrando perdas contrastivas e ambientais modificadas para melhorar a predição e a justiça.

Homophily contrastive learning Graph Neural Networks machine learning

RESEARCHarXiv CS.CL·4/6/2026

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

CIPHER é um modelo baseado em Conformer para inferência de fonemas a partir de EEG de alta densidade, visando decodificar informações de fala do cérebro. Embora alcance alta performance em tarefas binárias, mostra desempenho limitado na discriminação de fonemas de 11 classes, sendo posicionado como um estudo de benchmark e comparação de características.

deep learning speech decoding brain-computer interface machine learning

RESEARCHarXiv CS.LG·4/6/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

Dados Exógenos Pegada de Carbono machine learning IA

RESEARCHarXiv CS.AI·4/23/2026

Algorithm Selection with Zero Domain Knowledge via Text Embeddings

The paper proposes ZeroFolio, a feature-free algorithm selection method that uses pretrained text embeddings of raw instance files. This approach, requiring zero domain knowledge, outperforms traditional methods with hand-crafted features in most evaluated scenarios across diverse problem domains.

machine learning Natural Language Processing algorithm selection zero-shot learning

RESEARCHarXiv CS.AI·4/23/2026

EvoForest: A Novel Machine-Learning Paradigm via Open-Ended Evolution of Computational Graphs

EvoForest introduces a novel neuro-symbolic system for open-ended evolution of computation, moving beyond simple parameter optimization. It jointly evolves computational structures, function families, and trainable components to tackle complex structured prediction problems.

computational graphs machine learning Evolutionary Algorithms Neuro-symbolic AI

RESEARCHarXiv CS.AI·4/23/2026

Automated Detection of Dosing Errors in Clinical Trial Narratives: A Multi-Modal Feature Engineering Approach with LightGBM

This research presents an automated system for detecting dosing errors in clinical trial narratives, leveraging LightGBM with comprehensive multi-modal feature engineering. It combines traditional NLP, semantic embeddings, medical patterns, and transformer scores to achieve high ROC-AUC on an imbalanced dataset.

machine learning Natural Language Processing healthcare AI

RESEARCHarXiv CS.AI·4/23/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

This study explores data augmentation strategies to enhance transformer-based models for automated scoring of student scientific explanations, specifically addressing class imbalance. It evaluates methods like GPT-4 generated responses, EASE, and ALP against a SciBERT baseline, using a dataset of 1,466 high school responses.

machine learning Natural Language Processing education technology Data Augmentation

RESEARCHarXiv CS.CL·5/6/2026

S^2tory: Story Spine Distillation for Movie Script Summarization

S^2tory is a narratology-grounded AI framework designed for movie script summarization, addressing the complexity of non-linear narratives by identifying "plot nuclei" through character development trajectories. It employs a Narrative Expert Agent to distill knowledge, which then conditions a model to identify essential plot points for summary generation.

machine learning narrative AI Natural Language Processing summarization