トップ > 今月の特集一覧 > 2017年11月特集 「収集ロボット四苦八苦:収集できなかったファイル」

今月の特集(2017年11月) - 収集ロボット四苦八苦:収集できなかったファイル -

ウェブアーカイブでは、収集ロボット(クローラ)と呼ばれる自動プログラムを用いてウェブサイトを収集します。(参考:ウェブアーカイブのしくみ > 3. ウェブを収集するしくみ

しかし、現在WARPで使用している収集ロボットでは一部収集できていないページやファイルがあります。今回はそのような例をご紹介します。

(以下の内容は、2017年11月時点でWARPが採用している収集ロボットの仕様や設定をもとにしたものです。)

別サーバに置かれたファイル

WARPでは、ウェブサイトの単位(タイトル)ごとに収集の開始ページを登録し、この開始ページからリンクをたどって収集を実施しています(開始ページは複数登録可能です)。このとき、登録した開始ページと同じサーバ上にあるファイル(URLの"○○○.go.jp"の部分が開始ページのURLと共通のもの)のみを収集します。登録していないサーバへのリンクはたどらず、ファイルを収集しません。

あるウェブサイトの単位(タイトル)では収集していないページやファイルでも、別の単位で収集している場合があります。目的のページやファイルのURLをキーワードにして検索してみてください。(参考:ウェブアーカイブのしくみ > 4. ウェブを収集する単位

ページに埋め込まれたSNS等の情報

動画共有サービスの動画などSNSサイトの情報を埋め込んだページも現在非常に多いですが、これらは別サイトの情報とみなし収集していません。サイトを収集した時点の情報ではなく、アーカイブを閲覧している時点の情報が表示されてしまうこともあります。またストリーミング動画は収集自体がむずかしいです。(参考:ウェブアーカイブのしくみ > 10. ウェブアーカイブの技術的な課題

動画共有サイトの動画部分が表示されない例と
閲覧時点の情報がアーカイブページ内に表示される例。
収集日は2016年5月20日。閲覧日は2017年10月27日。
元サイト:金沢市

新着情報

頻繁に更新される新着情報。特別に作りこまれているケースや、新着情報のみ外部サーバで管理しているケースがあります。そのため新着情報を含んだファイルを収集できていないことがあります。

収集できていない新着情報の例
元サイト:大井町

トップページでよく見るスライダーの画像

注目してもらいたい情報を目につきやすい場所に配置する「スライダー」。スライダーの画像のみ収集できなかったり、スライダーそのものが再現されなかったりします。

スライダーを収集できていない例
元サイト:喜多方市

動的に読み込まれる画像

ページ読み込み後、プログラムによりURLが作成され追加で読み込まれるタイプの画像やファイルは収集できていない場合があります。また、メニューなどにマウスポインタを合わせると別の画像に変化するのをよく目にしますが、この変化後の画像を収集できていないことも多いです。

メニューの[電子展示会]にポインタを合わせると本来は色違いの画像が表示されるが、
WARPでは収集できていないために表示されない。
元サイト:国立国会図書館

データベース

条件を選択・入力して検索するタイプのデータベースはウェブアーカイブの苦手分野。たどるリンクがないため、収集ロボットは個別のデータのページにアクセスできません。(参考:ウェブアーカイブのしくみ > 10. ウェブアーカイブの技術的な課題

収集できていないデータベースの例
元サイト:国指定文化財等データベース(文化庁)

多くの部分がプログラム処理によって生成されるページ

ベースになるhtmlには直接の内容はほとんど書かれておらず、ブラウザによるプログラム処理によってページが生成される仕組みのウェブサイトがあります。現在の収集ロボットではファイル内に記述されたプログラムの処理は行わないため、たどりたいリンクのURLを取得できず、収集することができません。

robots.txtに指定されたファイル

robots.txtは収集ロボットに守ってほしい行動を記述するファイルです(記述ルールは「ロボット排除規約」と呼ばれます)。収集ロボットは、収集開始時にウェブサーバのルートディレクトリに置かれたrobots.txtファイルにアクセスして内容を確認し、記述内容に従って収集を行います。収集ロボットはこの規約を守るのが一般的です(参考:"The Web Robots Pages"(英語))。WARPでも原則この規約を守っており、robots.txtファイル中でアクセスしないよう記述されたディレクトリやファイルは収集していません。国立国会図書館法に基づく収集の対象になっている国の機関や地方自治体等に対しては、WARPの収集ロボットがアクセスできるよう、robots.txtの設定変更を依頼しています。

今月の特集一覧

ページの先頭へ