National Diet Library Web Archiving Project (WARP)

Our use of Cookies on NDL Web Archiving Project (WARP)

We used necessary cookies to make our website(https://warp.ndl.go.jp/)work as library services. We would also like to set analytics cookies that help us make improvements by measuring how you use our website. These cookies will be set only if you accept. You can revoke your consent with effect for the future at any time via the cookie settings.

Strictly Necessary Cookies : Always Enabled

  • Necessary cookies enable core functionality such as security, network management and accessibility.
  • You may disable these by changing your browser settings, but this may affect how the website functions.

Accept all Cookies : Usage Patterns Analytics Cookies

  • By using our website's statistical function, we collect website analytics information about usage patterns of website to evaluate and improve our services.

Cookies are small text files that are stored on your device (smartphone, tablet, laptop, etc.) when you visit our websites. For any question in relation to our policy on cookies, please see Privacy Policy .

About our use of cookies;

5. 収集する頻度

ウェブサイトを収集する「単位」が決まると、次に収集する「頻度」(収集間隔)を決める必要があります。その前に収集する「タイミング」について考えてみましょう。

収集するタイミング

ウェブサイトを効率的に収集するには、どのようなタイミングで収集するのが理想的でしょうか?答えは、ウェブサイトの更新直後です。なぜなら、一度ウェブサイトを収集した後、更新前に再度収集を行えば、前回収集したウェブサイトと同じ内容(状態)のページを収集することになりますし、逆に更新後しばらく間を置いてから収集を行うと、収集前に再度更新されたり、ページ自体が削除されたりする恐れがあるからです。

ウェブサイトの更新頻度

では、ウェブサイトの更新頻度はどのくらいでしょうか?ウェブコンテンツの平均寿命については、75日や100日など諸説あります。

(参考)
Michael Day. Collecting and preserving the World Wide Web : a feasibility study undertaken for the JISC and Wellcome Trust. Joint Information Systems Committee, 25 February 2003, 7p.
http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf

しかし、ニュースサイトのように毎日更新されるものもあれば、1年に一度程度の更新しかされないものもあり、更新頻度はウェブサイトによってまちまちです。

ウェブサイトの収集頻度

以上のことから、それぞれのウェブサイトが更新される度に収集するのが最も理想的なのですが、そのためにはウェブサイトの更新をリアルタイムで検知する仕組みが必要になります。

更新を検知して収集。 リアルタイム検知のイメージ

大学研究機関においてビッグデータの解析などのために、そのような仕組みを搭載した高性能クローラを開発しているところもありますが、ウェブアーカイブの運用機関でこうしたクローラを使用している例はあまりありません。

多くの場合は、予め収集頻度を決めて定期的に収集する方法を採用しています。

バルク収集を行っている機関の多くは年平均1~3回の頻度で収集を行っています。しかし、そのような低頻度の収集では、ニュースサイトをはじめとする更新頻度の高いウェブサイトを収集しきれないという問題があります。そのため、バルク収集を行っている機関の多くは選択収集を併用しており、必要なサイトを選択して高頻度の収集を行っています。

WARPでは大規模な選択収集を行っており、それぞれのウェブサイト(ターゲット)毎に収集頻度を定めています。

WARPの収集頻度

WARPでは収集頻度をターゲット単位で予め決め、定期的(毎月等)に収集を行っています。原則として「国の機関」のウェブサイトは月1回(年12回)、それ以外は四半期ごとに1回(年4回)です。この収集頻度は以下の3つの観点から決められました。

定期的な収集

①法律に基づく収集
2010年4月から国立国会図書館法に基づいて、公的機関ウェブサイトの網羅的な収集を開始しました。中でも「国の機関」のウェブサイトで発信される情報を可能な限り保存できるよう、高頻度(毎月)に収集を行うことが適当と考えました。

②相手先サーバへの考慮
相手先サーバへ負荷をかけないようにするため、ターゲット内の各ページをダウンロードする間隔を1秒以上空けることを前提に収集頻度を算出する必要がありました。

③システムにおける収集能力
システムの能力に見合った収集を行う必要がありました。システム上、同時に収集できるターゲット数は50、全てのターゲット数は約5,000という条件下で、最も効率的に収集できる頻度を算出しました。

WARPにおける収集頻度

「祭り」「映画」といったイベントサイトは、それぞれのイベント開催直後に収集を行っています。また、東日本大震災などの大規模災害時には、頻繁に更新される情報を確実に保存するため、通常よりも頻度を上げて収集をしています。

(最終更新日:2014/10/1)