ウェブアーカイブを実施している各国では、収集・保存した膨大なウェブサイトの利活用をいかに促進していくかが重要なトピックとなっています。
国立国会図書館インターネット資料収集保存事業(WARP)においても、様々な利活用の取組を行ってきました。先月の「WARP20周年特集」の続編として今回の特集では、WARPで収集したウェブサイトの利活用に関する取組について振り返ります。
海外のウェブアーカイブの機関では、収集したウェブサイトの閲覧を施設内に限定したり、利用を研究目的に限っているところがあります。
しかし、WARPでは収集したウェブサイトはできるかぎり多くの人に利用されることが重要であると考えているため、事業開始当初からインターネット公開についてサイト管理者の許諾が得られるよう働きかけを積極的に行ってきました。
その結果、2021年度末時点では、収集タイトル数13,822件のうち、12,435件(約90%)がインターネット公開されています。各国のウェブアーカイブと比べても、WARPは利用しやすいウェブアーカイブといえそうです。
利活用についての検討を進めている中、国の機関や地方公共団体等が、自身の管理するウェブサイトのアーカイブとしてWARPを使う事例が出てきていることが分かりました。つまり、WARPが収集し保存した過去のウェブページを、国の機関や地方公共団体等のウェブサイトからは削除し、代わりにWARPに保存されているページへのリンクを張るという使い方です。
そこで、2016年にはWARPをアーカイブとして利用する際の手順について案内するコンテンツ「古いページはWARPへリンク」を作成するなどして、WARPの利活用について広報を始めました。
近年では、「2020年10月特集 こんな所にWARPへのリンク」で紹介しているように、国の機関や地方公共団体等のウェブサイトにWARPへのリンクを設ける事例が増えた結果、それらのリンクから直接WARPにアクセスする件数が増加傾向にあることが分かってきました。具体的に、どの程度増加しているのか、次の2つの事例を見てみましょう。
このグラフは、アクセス数の多い財務省のウェブサイトのリンクからのアクセス件数の推移です。近年はアクセス件数が増加傾向にあり、WARPへのリンクへの置き換えが進んでいることが推測できます。WARPへのリンクを設けている文部科学省や防衛省のウェブサイトでも同じ傾向があります。
なお、この件数はリファラーに財務省のドメインを持つアクセス件数を算出したものです(2022年のみ、2022年8月上旬の件数を元にした予測値)。リファラーとは、サイトにアクセスした際の参照元のことをいい、WARPを閲覧する一つ前のウェブサイトのことを表します。
WARPへのリンクが増えることで、国の機関や地方公共団体等のウェブサイト以外からのアクセスも増えています。上記のグラフと同じようにリファラーを分析したTwitterとWikipediaの事例を紹介します。
Twitterでは消えたウェブサイトやすでに内容が変わってしまったウェブサイトを紹介する際に、ウェブアーカイブのURLが使われる場合があります。そこで、ツイートされたURLのリンクからのWARPへのアクセス件数を算出しました。上記のグラフの通り、アクセス件数は増加傾向にあることが分かります。
Wikipediaでは、記事の情報源として出典が記載されていますが、情報源には書籍等のほかにウェブサイトも使われています。それがリンク切れになると、WARPなどのウェブアーカイブのURLが併記されることがあります。そこで、ja.wikipedia.orgまたはja.m.wikipedia.orgドメインからのアクセス件数を算出しました。上記のグラフのとおり、Wikipediaからもアクセス件数は増加傾向にあることが分かります。
今後もアーカイブとしてWARPの利用が増えれば、より一層TwitterやWikipediaに引用される機会が増えるのではないかと考えられます。
研究利用に資するため、WARPに保存している膨大なウェブアーカイブを解析したり、可視化する試みも行ってきました。
可視化等の事例はWARPの「特色あるコレクション」のページで公開していますが、ここでは2つの事例を紹介します。
「国の機関サイトの残存率」では、国の機関のウェブサイトが数年後にどの程度残っているのかについて調べました。調査したのは、2010年から2014年にかけて存在した国の機関のURLが2015年に残っている割合についてです。過去のURLほど残存率が低く、2010年に存在していたURLは2015年には40%しか残っていないことが分かりました。この調査結果が示すようにウェブサイトが年々消失していく状況において、ウェブサイトを収集し保存することは重要なことではないでしょうか。
「都道府県サイトのリンク関係」では、都道府県のサイトが他の都道府県に対して張っているリンクの件数を、都道府県ごとに可視化したものです。これにより、ウェブサイトにおける都道府県間のリンク関係が分かります。
WARPの研究利用については、こうした取組を紹介してきたものの、他機関の研究者等による研究・調査が進んでいないのが現状です。これは、現在は研究に取り組みやすいデータセットなどが用意されていないことや、APIの提供ができていないため、WARPの機械的利用ができないことが要因と考えています。今後、WARPの機械的利用がより簡易にできるようAPIの提供等の検討を進めていきたいと考えています。
これまでのWARPの利活用について振り返りましたが、アーカイブとしてWARPが使われる事例が増えていることが、国の機関のサイトからのアクセス件数の推移から分かります。それに伴い、TwitterやWikipediaにおいてWARPが参照される件数も増加していることが分かります。今後も国の機関や地方公共団体等がウェブサイトを通じて提供する情報が増え続ければ、過去の情報を保存しているWARPがより参照されることになり、WARPの重要性も一層増すものと思います。
今後も利活用の取組は促進していきたいと考えていますので、引き続きWARPをよろしくお願いします。