Key points are not available for this paper at this time.
Como uma nova forma de treinar modelos generativos, as Redes Adversariais Gerativas (GAN) que utilizam um modelo discriminativo para orientar o treinamento do modelo generativo têm desfrutado de considerável sucesso na geração de dados contínuos. No entanto, possui limitações quando o objetivo é gerar sequências de tokens discretos. Uma razão principal está no fato de que as saídas discretas do modelo gerativo dificultam a transmissão da atualização do gradiente do modelo discriminativo para o modelo gerativo. Além disso, o modelo discriminativo só pode avaliar uma sequência completa, enquanto para uma sequência gerada parcialmente, não é trivial equilibrar sua pontuação atual e a futura uma vez que a sequência inteira foi gerada. Neste artigo, propomos uma estrutura de geração de sequência, chamada SeqGAN, para resolver os problemas. Modelando o gerador de dados como uma política estocástica em aprendizado por reforço (RL), o SeqGAN contorna o problema de diferenciação do gerador ao realizar diretamente a atualização de política por gradiente. O sinal de recompensa do RL vem do discriminador GAN avaliado em uma sequência completa e é passado de volta para os passos de estado-ação intermediários usando busca Monte Carlo. Experimentos extensivos em dados sintéticos e tarefas do mundo real demonstram melhorias significativas em relação a fortes referências.
Yu et al. (Sun,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: