大規模言語モデルのためのエントロピー正則化トークンレベルポリシー最適化 | Synapse