National Diet Library Web Archiving Project (WARP)

Our use of Cookies on NDL Web Archiving Project (WARP)

We used necessary cookies to make our website(https://warp.ndl.go.jp/)work as library services. We would also like to set analytics cookies that help us make improvements by measuring how you use our website. These cookies will be set only if you accept. You can revoke your consent with effect for the future at any time via the cookie settings.

Strictly Necessary Cookies : Always Enabled

  • Necessary cookies enable core functionality such as security, network management and accessibility.
  • You may disable these by changing your browser settings, but this may affect how the website functions.

Accept all Cookies : Usage Patterns Analytics Cookies

  • By using our website's statistical function, we collect website analytics information about usage patterns of website to evaluate and improve our services.

Cookies are small text files that are stored on your device (smartphone, tablet, laptop, etc.) when you visit our websites. For any question in relation to our policy on cookies, please see Privacy Policy .

About our use of cookies;

国の機関サイトの残存率

ウェブサイトは時間の経過とともに新陳代謝が進んでいきます。WARPで集めた国の機関サイトの中から1,000万ファイルを抽出して、過去5年間の残存状況を分析しました。

URLの残存率

2010年から2014年の各年に存在したURLが2015年にどのくらい残っているかを示したのが以下のグラフです。残存率は年をさかのぼるにつれて低くなり、5年前(2010年)のURLは60%がなくなっているのがわかります。

国の機関URLの残存率グラフ 国の機関サイト:URLの残存率

内容の残存率

URLが残っていることと内容が残っていることは必ずしも同義ではありません。URLが同じで内容が変わる場合や、反対に同じ内容でURLが変わる場合もあるからです。

そこで、同じ内容が残っているかどうかについてハッシュ値による分析も行いました。ハッシュ値とは、電子ファイルを特定の計算方法で操作して得られる値で、ごく僅かでも内容が変わるとハッシュ値も変わるため、ファイルの内容が同じものかどうかの判定に使うことができます。

結果は、各年ともURLとほぼ同じ傾向で、2010年のファイルのうち5年後に内容が少しも変わらずに残っていたのは40%でした。残りの60%は内容に変化があったかまたは消えてしまったと考えられます。

国の機関内容の残存率グラフ 国の機関サイト:内容の残存率

URLと内容の残存率

URLが残っているものに限定して、内容に変化があったかどうかを示したのが以下のグラフです。各年ともある程度の割合(9~13%)で、内容が変化していることがわかります。2010年を見てみると、URLが存続しかつ内容も全く変化のないものは31%で、残りの69%はURLが消えたかまたはURLが残っていても内容は完全には同じではなくなったことがわかります。

国の機関URLと内容の残存率グラフ 国の機関サイト:URLと内容の残存率

以上のことから、ウェブサイトが時間の経過とともにどのくらいアクセスできなくなったり、内容が変化、消失したりするのかがわかります。WARPのほか世界各国でウェブアーカイブが行われているのは正にこうした実状に対処するためで、本分析の結果はその重要性を再認識させるものとなりました。

府省ごとのURL残存率とファイル分布

府省ごとのURL残存率の分析結果を以下に示しました。「URL残存率」、「URL残存率(ディレクトリ階層)」、「ファイル分布」の3種類のグラフがあります。

  • 「URL残存率」

左端のグラフは府省ごとのURL残存率です。2010年を比較してみると、高い順で内閣官房(75%)、外務省(61%)、環境省(57%)、低い順で財務省(9%)、農林水産省(26%)、経済産業省(26%)となっています。

  • 「URL残存率(ディレクトリ階層)」

ディレクトリ階層の深さによる残存率を示したのが中央のグラフです。URLは階層的なディレクトリ構造を持っています。例えば「http://www.soumu.go.jp/」の階層は1つ、「http://www.soumu.go.jp/menu_syokai/」の階層は2つと数えます。
階層の深さによって残存率が異なるのがわかります。浅い階層が残りやすい総務省、国土交通省、深い階層が残りやすい外務省、経済産業省、そして特定の階層の凹凸が著しい法務省、財務省、環境省など、府省ごとに一定の傾向があるのが読み取れます。

  • 「ファイル分布」

残存率の高さが必ずしも残ったファイルの多さを表しているとは限りません。例えばある階層の残存率が高くても、そこに配置されているファイルが少なければ残るファイルの絶対数は少なくなります。
右端のグラフは、2015年4月に収集したファイルのディレクトリ階層ごとの分布を表しています。中央のグラフと対照してみると、今後どの階層のどのようなファイルが多く消える可能性があるのかが見えてきます。

内閣官房

内閣府

総務省

法務省

外務省

財務省

文部科学省

厚生労働省

農林水産省

経済産業省

国土交通省

環境省

防衛省

(最終更新日:2016/1/20)