Key points are not available for this paper at this time.
高い拡張性と低い運用コストにより、ファズテストはソフトウェアバグを発見するための事実上の標準となっています。ファズ技術は、究極のバグ発見ツールを構築するための競争の中で常に改善されています。しかし、ファズが実際の環境でバグを見つけるのが得意な一方で、ファッザーのパフォーマンスを評価・比較することは指標やベンチマークの欠如により難しいです。例えば、クラッシュカウント---おそらく最も一般的に使用されているパフォーマンス指標---は、重複排除技術の不完全さによって不正確です。さらに、統一されたターゲットの欠如は、適宜評価を招き、公正な比較を妨げます。私たちは、ファッザーの評価と比較を均一化するための真実のファズ評価ベンチマークであるマグマを開発することによって、これらの問題に取り組みます。マグマは実際のソフトウェアに実際のバグを導入することで、広範なターゲットに対してファッザーの現実的な評価を可能にします。これらのバグをインスツルメント化することで、マグマはファッザーに依存しないバグ中心のパフォーマンス指標の収集も可能にします。マグマは、さまざまな入力操作と複雑な計算を行う7つのターゲットからなるオープンベンチマークであり、最先端のファッザーに対する挑戦を提供します。私たちは、200,000 CPU時間の間にマグマに対して7つの広く使用されているミューテーションベースのファッザー(AFL、AFLFast、AFL++、FairFuzz、MOpt-AFL、honggfuzz、SymCC-AFL)を評価します。到達した、トリガーされた、検出されたバグの数に基づいて、ファッザーの探索および検出能力に関する結論を導き出します。これにより、ファッザーのパフォーマンス評価に対する洞察を提供し、より正確で有意義な評価を行う上での真実の重要性を強調します。
Hazimeh et al. (Mon,) はこの問題を研究しました。