真実の答えなしに大規模言語モデルをランキングする | Synapse