Otimizar diretamente as preferências humanas com RL, esta abordagem é bastante limpa e muito mais elegante do que empilhar classificadores.

Ver original
MeNews
Os investigadores desenvolveram técnicas de aprendizagem por reforço online para modelos de geração de imagens
ME News Notícias, 19 de abril (UTC+8), recentemente, investigadores desenvolveram uma técnica simples e eficiente em amostras de aprendizagem por reforço online para treinar modelos de geração de imagens.
A técnica é vista como uma alternativa possível e orientável para substituir a técnica de orientação livre por classificadores, cujo sinal de condução pode ser qualquer recompensa escalar, incluindo preferências humanas.
O artigo fornece mais informações através de um link no Twitter. (Fonte: InFoQ)
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado