Key points are not available for this paper at this time.
無制限で順序のないグローバル規模のデータセットは、日常のビジネスにおいてますます一般的になっています(例:ウェブログ、モバイル使用統計、センサーネットワーク)。同時に、これらのデータセットの消費者は、イベント時間の順序付けやデータ自体の特徴によるウィンドウ処理など、複雑な要求を進化させており、さらに迅速な回答を求める欲求も止まることがありません。一方で、実用性から、これらのタイプの入力に対して正確性、待機時間、コストのすべての次元で完全に最適化することは不可能です。その結果、データ処理の実践者は、これらの競合する命題の間の緊張をどのように調和させるかという難題に直面し、しばしば異なる実装やシステムにつながります。私たちは、現代のデータ処理におけるこれらの進化した要求に対処するためには、基本的なアプローチの変更が必要であると提案します。私たちの分野は、無制限のデータセットを有限の情報プールに整えようとするのをやめ、新しいデータが到着し、古いデータが撤回されるかもしれないという前提の下で生きるべきです。これは、正確性、待機時間、コストの興味のある軸に沿った適切なトレードオフの選択を実践者に許す原則に基づいた抽象化を通じて、この問題を処理可能にする唯一の方法です。この記事では、データフローモデルという一つのアプローチを提示し、それが可能にする意味論の詳細な検討、設計を導いた核心原則の概要、そしてその開発につながった実世界の経験によるモデル自体の検証を行います。
Akidau et al. (Sat,) はこの問題を研究しました。