データ分析事例
国立国会図書館インターネット資料収集保存事業(Web Archiving Project: WARP)で保存しているコンテンツを分析した事例を紹介します。
- 保存したサイトの可視化
- WARPでは1万4千タイトルのウェブサイトを収集・保存しています。その規模は、収集回数23万回、122億ファイル、容量2,600TBにのぼります。どのようなサイトがどのくらい保存されているのか、一目でわかるように可視化をしました。
- 国の機関サイトの残存率
- ウェブサイトは時間の経過とともに新陳代謝が進んでいきます。WARPで集めた国の機関サイトの中から1,000万ファイルを抽出して、過去5年間の残存状況を分析しました。
- ウェブ日本列島
- WARPで保存した都道府県、政令指定都市、市町村、東京23区のトップページを各本庁舎の緯度・経度に配置し、年ごとの移り変わりを動画にしました。
- 都道府県サイトのリンク関係
- 都道府県ウェブサイトのリンク関係を可視化した図です。都道府県サイトごとに、全ページ内の<a>タグのhref属性に記述された他の都道府県へのリンクを集計しました。