Key points are not available for this paper at this time.
最近の言語モデルのトレーニングにおける革新により、スマートフォンで実行するのに十分小型でありながら高性能なモデルを作成することが可能であることが示されました。これらのモデルがさまざまな分野で展開される中で、人間の好みや安全性の考慮に整合させることが重要です。本報告では、Phi-3シリーズの言語モデルの安全性を整合させるための私たちの方法論を示します。「ブレーク-フィックス」サイクルを利用し、データセットのキュレーション、安全性のポストトレーニング、ベンチマーキング、レドチーム、脆弱性の特定を複数回実施して、単一およびマルチターンシナリオにおけるさまざまな危害領域をカバーしました。私たちの結果は、このアプローチが幅広い責任あるAIベンチマークにおいてPhi-3モデルのパフォーマンスを反復的に改善したことを示しています。最後に、多言語能力のために最適化されたPhi-3.5-miniおよびPhi-3.5-MoEの安全性行動をテストするために使用された追加のレドチーム戦略と評価を含めます。
Haider et al.(木曜日)はこの問題を研究しました。