この論文では、FastLanesと呼ばれる新しいオープンソースのビッグデータファイルフォーマットを紹介します。これは、現代のデータ並列実行(SIMDまたはGPU)向けに設計されており、データレイクの基盤となるParquetなどの以前のデータフォーマットの機能を進化させています。一般的な圧縮方法(例:Snappy)を避け、完全にデータ並列の軽量エンコーディングを採用することで実現されています。圧縮比を高めるために、柔軟な式エンコーディングメカニズムを使用してエンコーディングをカスケード化します。このメカニズムは、列間の相関関係を利用することで、長年のカラムストレージの弱点であるマルチカラム圧縮(MCC)を実現し、圧縮を強化します。圧縮中にエンコーディング式を見つける2相アルゴリズムを提供します。FastLanesはAPIにも革新をもたらし、圧縮データに対する効率的なクエリ実行を促進する部分的な解凍を柔軟にサポートしています。FastLanesは、行グループではなく小さなバッチのレベルでの細かいアクセスを目的として設計されており、CPUおよびGPUキャッシュに収まるように解凍のメモリフットプリントを制限します。ポータブル(自動ベクトル化)C++でのFastLanesのオープンソース実装を提供します。実データのコーパスに対する評価により、FastLanesはParquetに対して圧縮比を改善しつつ、解凍を大幅に加速させており、最新の技術の中でのウィンウィンな選択肢となります。”},{
Afroozeh et al. (Tue,) studied this question.