RESEARCHarXiv CS.CL·24d atrás

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Este estudo argumenta, com base na Desigualdade de Processamento de Dados, que LLMs de agente único são mais eficientes em termos de informação do que sistemas multiagente sob orçamentos de token de raciocínio iguais. A pesquisa testa empiricamente esta previsão, que sugere que sistemas multiagente se tornam competitivos quando a utilização de contexto de um único agente é degradada ou mais poder computacional é despendido.

LLMsInformation EfficiencyComputational BudgetMulti-Hop Reasoning
27
RESEARCHarXiv CS.CL·24d atrás

Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems

Este estudo explora a propagação da subserviência (sycophancy) em sistemas multiagentes de LLMs, onde os modelos concordam com a postura do usuário mesmo quando conflitante com a própria opinião. Os pesquisadores descobriram que fornecer aos agentes classificações da tendência de subserviência de seus pares reduz a influência de agentes subservientes, mitiga erros em cascata e melhora a precisão das discussões em 10,5%.

discussion accuracyLLMssycophancycollaborative AI
27
RESEARCHarXiv CS.LG·24d atrás

Modeling and Controlling Deployment Reliability under Temporal Distribution Shift

Este artigo propõe uma estrutura centrada na implantação para modelar a confiabilidade de modelos de machine learning em ambientes não-estacionários, onde a mudança de distribuição temporal pode degradar o desempenho. O framework trata a confiabilidade como um estado dinâmico, abordando a adaptação de implantação como um problema de controle multi-objetivo para equilibrar estabilidade e custo de intervenção.

implantaçãomudança de distribuição temporalvolatilidadecusto de intervenção
27
RESEARCHarXiv CS.AI·24d atrás

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic-dataAgentes de SaúdeIA na Saúdehealthcare
27
RESEARCHarXiv CS.CL·24d atrás

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

Dependency PredictionDEMASKParallel DecodingMachine Learning
29
RESEARCHarXiv CS.CL·24d atrás

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

Este estudo aborda os riscos de LLMs no suporte à saúde mental, focando em usuários com psicose, onde podem reforçar delírios e alucinações. Propõe um método escalável de avaliação de segurança usando critérios clínicos e LLMs como avaliadores (LLM-as-a-Judge/Jury), demonstrando alinhamento com o consenso humano.

LLM-as-a-JudgepsicoseSaúde Mentalavaliação automatizada
27
RESEARCHarXiv CS.LG·24d atrás

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

Reinforcement LearningQuery EfficiencyExplorationOffline Learning
29
ARTICLELangChain Blog·24d atrás

Continual learning for AI agents

Este conteúdo discute a aprendizagem contínua para agentes de IA, propondo que a aprendizagem vai além da atualização dos pesos do modelo. Ele introduz três camadas distintas onde a aprendizagem pode ocorrer – o modelo, o harness e o contexto – destacando como essa perspectiva muda a abordagem para construir sistemas de IA que melhoram ao longo do tempo.

Model weightsAI system designMachine LearningAI agents
26
NEWSThe Verge AI·24d atrás

Suno is a music copyright nightmare

A política da plataforma de música com IA Suno proíbe o uso de material protegido por direitos autorais, mas seus filtros de copyright são facilmente burlados. Isso permite a criação de imitações de músicas populares alarmantemente próximas aos originais com esforço mínimo.

SUNOAI ethicsCopyrightmusic-generation
23
ARTICLEThe Verge AI·24d atrás

I let Gemini in Google Maps plan my day and it went surprisingly well

O autor compartilha uma experiência positiva ao usar a IA Gemini no Google Maps para planejar seu dia, ficando surpreso com a qualidade das sugestões. Ele se impressionou com a capacidade do Gemini de encontrar locais relevantes e descobrir novos pontos na cidade.

Inteligência ArtificialGoogle MapsGeminiPlanejamento
21
ARTICLEThe Verge AI·24d atrás

Grammarly’s sloppelganger saga

Este é um trecho de uma newsletter semanal sobre tecnologia, destacando a mudança de marca da Grammarly para Superhuman, uma empresa de IA. A mudança segue a aquisição da plataforma de e-mail com IA, Superhuman Mail.

Tech NewsGrammarlyRebrandingAI
21
ARTICLEThe Verge AI·25d atrás

A folk musician became a target for AI fakes and a copyright troll

A artista folk Murphy Campbell descobriu que versões de suas músicas geradas por IA foram carregadas no Spotify sob seu nome e sem sua permissão. Este incidente realça os problemas de direitos autorais e o impacto da IA na indústria musical e nos direitos dos artistas.

AI fakesmúsicaética da IAStreaming
24
ARTICLEThe Verge AI·25d atrás

Really, you made this without AI? Prove it

O autor expressa preocupação com o ceticismo crescente em relação ao conteúdo humano devido à sofisticação da IA generativa. Ele propõe a criação de um rótulo universal, similar ao Fair Trade, para obras criadas por humanos, visando proteger os criadores e garantir a autenticidade.

autenticidade digitalrotulagem de conteúdoIA GenerativaÉtica na IA
24
NEWSThe Verge AI·26d atrás

Anthropic essentially bans OpenClaw from Claude by making subscribers pay extra

Anthropic irá cobrar separadamente pelo uso de ferramentas de terceiros como o OpenClaw com o Claude AI a partir de 4 de abril, não permitindo mais o uso dos limites da assinatura. Essa medida pode ser uma estratégia para promover suas próprias ferramentas, especialmente após o criador do OpenClaw ter sido contratado pela OpenAI.

OpenAIOpenClawcompetitor strategyClaude AI
20
NEWSThe Verge AI·26d atrás

OpenAI’s AGI boss is taking a leave of absence

OpenAI passa por nova rodada de mudanças na liderança executiva, com Fidji Simo, CEO de implantação de AGI, tirando uma licença médica por condição neuroimune. Durante sua ausência, Greg Brockman liderará a área de produtos e outros executivos assumirão as operações de negócios.

OpenAIliderançaAGIreorganização
21
ARTICLEMIT Tech Review AI·26d atrás

Four things we’d need to put data centers in space

O título indica um artigo sobre os quatro requisitos para instalar centros de dados no espaço. No entanto, o conteúdo completo para análise não foi fornecido.

Space ExplorationInfrastructureData Centers
0
ARTICLELangChain Blog·26d atrás

How My Agents Self-Heal in Production

Este conteúdo descreve um pipeline de deploy auto-reparável para um Agente GTM, que detecta e tria regressões após cada deploy. Ele aciona um agente para abrir um PR com uma correção, eliminando a necessidade de intervenção manual até a fase de revisão.

MLOpsproduction systemsDeployment automationSelf-healing systems
24
ARTICLEThe Verge AI·26d atrás

Apple’s best product ever

O conteúdo discute a classificação dos 50 melhores produtos da Apple em comemoração ao 50º aniversário da empresa, com base em mais de 1.6 milhão de votos. Ele também menciona cobertura adicional e um episódio do podcast The Vergecast.

AppleProdutosThe Vergetecnologia
3
NEWSTogether AI Blog·27d atrás

Wan 2.7 now available on Together AI

Wan 2.7, um novo pacote de vídeo de quatro modelos para geração, continuação, fluxos de trabalho guiados por referência e edição, está agora disponível no Together AI. O lançamento começa com capacidades de texto para vídeo.

AI modelsWan 2.7text-to-videoTogether AI
26
RESEARCHTogether AI Blog·27d atrás

AI for Systems: Using LLMs to Optimize Database Query Execution

Nova pesquisa demonstra que Large Language Models (LLMs) podem otimizar planos de execução de consultas de banco de dados, alcançando acelerações de até 4,78x. Isso é possível ao corrigir erros de estimativa de cardinalidade que as heurísticas estatísticas normalmente não detectam.

Query ExecutionLLMsCardinality EstimationDatabase Optimization
27
←1…309310311312313…317→
Sobre·[email protected]
NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%
⌘K