トップ > 今月の特集一覧 > 2023年2月特集「WARPの「データ量」は何を表している?」

今月の特集(2023年2月) - WARPの「データ量」は何を表している? -

国立国会図書館インターネット資料収集保存事業(WARP)では、統計情報の一つとして「データ量」を毎年度算出しています。統計のページをご覧いただければ、2021年度末には、約2,400TBのデータ量になっていることが分かります。では、この「データ量」とは何を表しているのでしょうか。

収集したウェブサイトのデータ量の表し方には3種類あります。下図1に、3種類のデータ量を示しています。上から順に、「収集データ量」、「差分データ量」、そして「保存データ量」になります。WARPでは、前回収集した時点から変更があったデータのみ保存する差分収集を行っています。そこで、収集対象のウェブサイトの全データ量を表す「収集データ量」から、変更のなかったデータ量を引いたものが「差分データ量」になります。なお、差分収集の仕組みについては、「ウェブアーカイブのしくみ 6.差分収集」に説明があります。次に、保存領域(ストレージ)にデータを保存する前にデータ圧縮を行いますので、圧縮後の容量がストレージ中のデータ量を表す「保存データ量」となります。つまり、「収集データ量」に比べ、「保存データ量」は少なくなります。

「収集データ量」からは、収集対象の規模、つまり、収集対象のウェブサイトが収集時点に保有しているデータの総量が分かりますので、例えばウェブサイトの規模の経年変化を調べることが可能です。一方、「保存データ量」からは、実際に使用するストレージ容量が分かりますので、ストレージの必要量を見積もるには「保存データ量」が重要です。このように、知りたい情報によっては必要なデータ量が変わる場合があります。

WARPでの3種類のデータ量 図1 WARPでの3種類のデータ量

これらのうち、WARPの統計情報としているデータ量は、「収集データ量」です。WARPの統計値にある約2,400TBのデータとは、事業開始からこれまでに収集してきたウェブサイトの総量を表していることになります。ちなみに、2021年度末の「保存データ量」は約1,200TB[1]なので、年度により変動がありますが、「収集データ量」の5割程度の規模になります。

  1. [1] 未圧縮データが多く含まれているため、それらは圧縮前のデータ量を計上しています。

今月の特集一覧

ページの先頭へ