Key points are not available for this paper at this time.
機械学習モデルは広く使用されていますが、しばしば間違っていることもあります。ユーザーは、特定のモデルからの出力が信頼できるものであるかどうかの信頼できる指標の利益を得ることができ、その出力を使用するかどうかの合理的な決定を下すことができます。たとえば、出力に信頼度測定値を関連付けることができます。この信頼度測定値が正確性の可能性と強く関連している場合、そのモデルは適切にキャリブレーションされていると言われます。適切にキャリブレーションされた信頼度測定値は、生成されたコードを使用する際に必要なレビューや注意の程度を合理的に決定する基盤として機能します。これまでキャリブレーションは主に非生成的(例えば、分類)環境で研究されてきました。特にソフトウェア工学の分野で。しかし、生成されたコードはしばしば間違っている可能性があります。生成されたコードを考慮すると、開発者はそれを直接使用するか、注意深いレビューの強度を変えた後に使用するか、モデル生成コードを廃棄するかを決定する必要があります。したがって、キャリブレーションは生成的な設定では重要です。私たちはいくつかの貢献を行います。コード生成モデルのキャリブレーションを評価するためのフレームワークを開発します。いくつかのタスク、正確性基準、データセット、アプローチを考慮し、試験した生成コードモデルが箱から出したときはあまり適切にキャリブレーションされていないことが多いことを発見しました。次に、Plattスケーリングなどの標準的な方法を使用してキャリブレーションを改善できる方法を示します。Plattスケーリングは、正確性データの事前の可用性に依存するため、ソフトウェア工学でのPlattスケーリングの適用可能性と一般化性を評価し、実用的な使用に良い可能性がある設定を議論し、そうでない設定を議論します。私たちの貢献は、言語モデルによって生成されたコードの現在の使用におけるより良いキャリブレーションされた意思決定につながり、ソフトウェア工学における生成モデルのキャリブレーション方法をさらに改善するための将来の研究へのフレームワークを提供します。
Spieß et al. (Sat,) はこの問題を研究しました。