Para abordar os desafios impostos por múltiplas incertezas nos sistemas de energia modernos ao ofertamento de mercados das Usinas de Energia Virtuais (VPPs), este artigo propõe uma estratégia de lances adaptativa baseada em Aprendizado por Reforço Profundo (DRL). Primeiro, um modelo de agregação de VPP heterogêneo integrando armazenamento de energia dedicado, Vehicle-to-Grid (V2G) e cargas flexíveis é construído, incorporando restrições físicas e operacionais complexas. Em segundo lugar, para superar o problema de 'otimalidade local míope' do DRL tradicional em tarefas de arbitragem temporal, um mecanismo de modelagem de recompensa baseado em potencial, vinculado a tendências de preços futuras, é projetado para guiar o agente em direção a estratégias ótimas de longo prazo. Por fim, experimentos comparativos multidimensionais e análises de mecanismos são realizados em um mercado simulado de eletricidade de dia seguinte. Os resultados da simulação demonstram o seguinte: (1) O algoritmo proposto apresenta estabilidade de convergência robusta e lida efetivamente com o ruído estocástico nos preços de mercado e na geração renovável. (2) Economicamente, a estratégia supera significativamente a estratégia baseada em regras e permanece altamente competitiva com a referência de otimização determinística sob suposições de informação perfeita. (3) A análise do mecanismo revela ainda que o agente DRL rompe a lógica rígida de limites fixos, aprendendo um mecanismo de jogo dinâmico não linear baseado em estados 'Preço-SOC', alcançando assim a utilização profunda total dos recursos de armazenamento de energia. Este trabalho fornece um paradigma interpretável orientado a dados para a tomada de decisões inteligente em VPP em ambientes incertos.
Yang et al. (Sun,) estudaram esta questão.