Los puntos clave no están disponibles para este artículo en este momento.
El entrenamiento tradicional de modelos para la generación de oraciones emplea la pérdida de entropía cruzada como función de pérdida. Si bien la pérdida de entropía cruzada tiene propiedades convenientes para el aprendizaje supervisado, no puede evaluar las oraciones en su conjunto y carece de flexibilidad. Presentamos el enfoque de entrenar el modelo de generación utilizando la similitud semántica estimada entre las oraciones de salida y referencia para aliviar los problemas enfrentados por el entrenamiento con la pérdida de entropía cruzada. Usamos el puntuador basado en BERT ajustado a la tarea de Similitud Textual Semántica (STS) para la estimación de similitud semántica, y entrenamos el modelo con las puntuaciones estimadas a través del aprendizaje por refuerzo (RL). Nuestros experimentos muestran que el aprendizaje por refuerzo con recompensa de similitud semántica mejora las puntuaciones BLEU del modelo NMT LSTM de referencia.
Yasui et al. (Martes,) estudiaron esta cuestión.