トップ > 今月の特集一覧 > 2022年8月特集「WARPの20年を振り返る」

今月の特集(2022年8月) - WARPの20年を振り返る -

今年は、国立国会図書館インターネット資料収集保存事業(WARP)が2002年に実験事業として開始されてから、20周年にあたります。そこで今月は、これまでのWARPの20年の歩みを振り返ります。

WARP20年の歩み

時期 出来事
2002年6月 「国立国会図書館インターネット資源選択的蓄積実験事業」(WARP)として開始
2002年11月 国立国会図書館ホームページにWARPのウェブサイトを公開
2006年7月 「国立国会図書館インターネット情報選択的蓄積事業」に日本語名称を変更し、本格事業化
2009年7月 国等の公的機関が発信するインターネット情報の網羅的な収集を可能とする国立国会図書館法の一部を改正する法律が公布
2010年4月 「国立国会図書館インターネット資料収集保存事業」に日本語名称を変更し、公的機関のウェブサイトの制度収集を開始
2013年1月 現行インタフェースにリニューアル、「今月の特集」を開始
2018年11月 英語版インタフェースを公開
2021年12月 検索結果の表示方法を改善
2022年3月 リンク移動の仕組みを改善
(年表)WARP 20年の歩み

WARPは「国立国会図書館インターネット資源選択的蓄積実験事業(Web Archiving Project)」として2002年に開始され、日本国内の少数の公的機関及び民間のウェブサイトについて、許諾を得て収集・保存・提供を行う実験的な事業として始まりました。2006年には、公的機関の収集対象をすべての政府関係機関等に拡大し、日本語名称を「国立国会図書館インターネット情報選択的蓄積事業」に変更して本格事業化しました。

2009年に国立国会図書館法が改正され、国・地方公共団体等の公的機関のウェブサイトを網羅的に収集・保存することが可能になりました(この法改正を根拠とする収集を制度収集と呼びます。)。そして翌年2010年の同法改正施行に伴い、制度収集を開始しました。この時から、機関の種別によって毎月や四半期ごとなどの収集頻度を設定し、定期的な収集を開始しました。また、日本語名称を現在の「国立国会図書館インターネット資料収集保存事業」に変更するなど、現行のWARPの基本的な枠組みが固まった時期といえます。

2013年にシステムをリニューアルし、「今月の特集」等のコンテンツ提供を開始しました。そして、2018年には、より一層の利用層の拡大を目指し英語版インタフェースを用意し、またWARP自体の使いやすさの向上を目指し、2021年に検索結果の表示方法を、2022年にWARP内のリンク移動の仕組みを大幅に改善しました。

WARPのホームページの変遷

WARPのホームページは、これまで、2002年の実験事業開始時、2010年の制度収集開始時、2013年のリニューアル時に3回構成を変更しています。

収録タイトル数の推移

2002年度から2021年度までの収録タイトル数の推移 (グラフ)収録タイトル数の推移

現在のWARPでは、制度に基づく公的機関のウェブサイトの収集と、許諾に基づく民間ウェブサイトの収集を行っていますが、実験事業として始まった2002年度から制度収集の開始前の2009年度までは、公的機関についても民間の機関と同様に、収集するにはウェブサイト管理者の許諾が必要でした。そのため、許諾を得られた場合のみ収集を行っていました。

2010年の制度収集開始に伴い、全ての公的機関が収集の対象となったため、収録タイトル数(収録しているウェブサイトの件数)が大きく増加しました。グラフを見ると、2009年度に比べ、2011年度はタイトル数が2,000件以上増加したことが分かります。

また、民間ウェブサイトを収集するための許諾依頼は日々継続して行っており、タイトル数は年々増加しています。2015年には公益財団法人に対して集中的な依頼を行ったため、大きくタイトル数が増加しています。このように一定期間ごとにターゲットとなる機関種別などを定めて許諾依頼を行っています。許諾依頼を進めてきた結果、民間のタイトル数は 8,000件程度まで増え、現在は公的機関よりも多くなっています。

民間ウェブサイトの収集については「2018年3月特集 民間ウェブサイトの収集」を、また、新規に収集を開始したウェブサイトについては定期的に特集している「New Archived Websites」もご覧ください。

ところで、収集したウェブサイトをインターネット公開するためには著作権の一部である公衆送信権を有する発信者の許諾が必要です。そのため、WARPでは公的機関および民間のウェブサイトのいずれに対しても、インターネット公開について発信者に許諾を依頼し、許諾を得た上でインターネット公開しています。2021年度末時点の収集タイトル数13,822件のうち、12,435件(約90%)がインターネット公開されており、各国の事業として行われている世界のウェブアーカイブの中でも、インターネット公開されている度合いが高いアーカイブといえます。

データ量の推移

2002年度から2021年度までの累積データ量の推移 (グラフ)累積データ量の推移

収集データ量については、2010年度の制度収集開始以降、急速に増加し、2021年度には2,400TB(テラバイト)に達しようとしています。これは、収集タイトル数の増加のほか、各機関がインターネットに公開するデータ量の増加に伴うものです。

WARPの収集データ量がどれくらいの規模なのか、世界のウェブアーカイブにおける収集量と比較してみましよう。米国議会図書館(Library of Congress)では、保存しているコンテンツは2,000TB以上あり、毎月20~25TBデータ量が増加しています[1]。また、英国図書館(British Library)では年間60~70TBの増加量になっています[2]。WARPでは現在年間300TB以上の増加量になっているため、収集規模においてこれらの機関におけるウェブアーカイブ事業と同程度の収集規模になっていることが分かります。

システム構成の変遷

これまでの20年で、WARPで採用しているシステム構成や各種技術も大きく変化しました。ウェブアーカイブの収集・保存・提供において重要な技術は、「収集ソフト」「保存形式」「閲覧アプリケーション」の3つです。また、膨大なアーカイブの中から希望するコンテンツを探しやすくするために「全文検索機能」を提供しています。それぞれのシステム構成の変遷も簡単に振り返ります。

  • 収集ソフト

当初は、収集にオープンソースソフトウェアの「Wget」を使用し、収集したウェブサイトをファイル単位で保存する仕組みでした。2010年に、世界中のウェブアーカイブ機関に採用されており、ウェブアーカイブに特化した標準的な収集ソフトである「Heritrix」を導入し、それ以降はHeritrixで収集しています。なお、2013年には保存データ量を減らすための対策として「差分収集機能」を追加しました。差分収集機能では、更新があったファイルだけを保存するため、保存データ量が少なくなり、データを保存するためのストレージを節約することができます。

  • 保存形式

Wgetの使用時はファイル単位で保存していましたが、Heritrixの導入にあわせて、2010年にウェブサイトに関する様々なファイルやファイルに関する情報(メタデータ)をまとめて保存する「WARC形式」に保存形式を変更しました。WARC形式にすることによって、ファイル単位では保存できなかった情報が保存できるようになりました。例えば、ウェブサイトのURLが変わった際に自動的に新しいURLに遷移させるためのリダイレクト情報のようなコンテンツを持たない情報も保存できるようになりました。

  • 閲覧アプリケーション

WARC形式で保存したウェブサイトを閲覧するためには、WARC形式からHTMLファイルや画像ファイルを取り出したうえで一般的なウェブサーバで提供するか、あるいはWARC形式のまま閲覧する専用アプリケーションが必要になります。WARC形式を導入した2010年当初は前者の方法を採り、ファイル単位に展開した提供用のデータも保存していました。その場合、元のWARC形式のファイルに加え、展開したデータの保存容量が必要になります。そこで、多くのアーカイブ機関が採用していた専用アプリケーションの「OpenWayback」を導入しました。OpenWaybackではWARC形式のままアーカイブを閲覧することができるので、ファイル単位に展開したデータを保存する容量は不要になります。

  • 全文検索機能

実験事業の時期に全文検索機能を導入しましたが、当時はWARP専用に作成したものでした。制度収集開始にあわせて、オープンソースの全文検索システムとして世界で広く利用されている「Solr」を2010年に導入し、大規模データに対する検索速度の向上を図りました。

「今月の特集」開始のきっかけ

2013年のインタフェースリニューアル当時、WARPではウェブサイトを着実に収集・保存し続けていたものの、ウェブアーカイブそのものがまだ社会的に知られていない状況でした。そこで、リニューアルを機により多くの方々に関心を持ってもらうよう、「今月の特集」や「ウェブアーカイブのしくみ」、「世界のウェブアーカイブ」などのウェブアーカイブに関する紹介記事の公開を始めました。

特に、毎月更新している「今月の特集」は、WARPの運用を担当している当館職員が、アーカイブしているウェブサイトの中からその時々の社会的トピックに関連したウェブサイトを取り上げたり、WARPについての解説記事などを掲載しているので、ぜひご覧いただければと思います。

最後に

事業開始からの20年間を振り返りましたが、収録タイトル数と収集データ量は着実に増加していることが分かります。

一方で、ウェブアーカイブにおいては、収集することと同時にそれをどのように利活用していくのかが重要になります。実は、ここ10年間、世界のウェブアーカイブ機関において重要なトピックになっているのが「ウェブアーカイブの利活用」についてです。いかにアーカイブを利活用につなげ、そこから価値を生み出していくのかが議論されるようになっています。WARPについては、保存したウェブサイトの解析を行うことや、また地方公共団体等には削除することになった古いファイルのアーカイブとして利用する方法を広報し、その利活用を進めています。WARPの利活用については来月の特集で振り返るので是非ご覧ください。

  1. ^https://www.loc.gov/programs/web-archiving/about-this-program/frequently-asked-questions/, 2022年7月22日閲覧
  2. ^https://www.webarchive.org.uk/en/ukwa/info/faq, 2022年7月22日閲覧

類似したテーマの特集記事

今月の特集(2020年4月) - ウェブサイト制度収集開始10周年

今月の特集一覧

ページの先頭へ