国立国会図書館インターネット資料収集保存事業 (WARP)

国立国会図書館インターネット資料収集保存事業(WARP)でのクッキーの使用

当ウェブサイト(https://warp.ndl.go.jp/)は、図書館サービスとしてウェブサイトを機能させるために必要なクッキー(Cookie)を使用しています。また、当ウェブサイトの利用状況を計測し、改善に役立てるためのアクセス解析クッキーを設定することもありますが、このクッキーは、利用者が同意した場合にのみ設定されます。同意はいつでも取り消すことができます。

ウェブサイトの正常な動作に「必要最小限」のクッキー(常に有効)

  • 当ウェブサイトは、セキュリティ、ネットワーク管理、アクセシビリティなどの基本的な機能を正常に機能させるために必須なクッキーをあらかじめ設定しています。
  • ブラウザのクッキー設定を変更することで、必要最小限のクッキーを無効にできますが、ウェブサイトの機能に影響を与える場合があります。

「全て同意」を選択した場合に設定されるクッキー(利用パターン解析)

  • 当ウェブサイトのアクセス統計機能を使用して、アクセスログの解析によりウェブサイト利用者の利用パターンを解析し、サービスの評価・改善に役立てます。

クッキーとは、利用者がウェブサイトにアクセスしたときに、ご利用の端末(スマートフォンやタブレット、PC等)に保存される小さなテキストファイルです。より詳しく知りたい方は、 プライバシーポリシー をご確認ください。

クッキーの使用について:

2. ウェブアーカイブのライフサイクル

ウェブアーカイブのライフサイクルは、「選定」、「収集」、「組織化」、「保存」、「公開」の5つの部分からなります。ウェブサイトに掲載されている情報は時間の経過とともに変化していきます。ウェブアーカイブでは、このサイクルを定期的に繰り返しながらウェブサイトの変化を記録していきます。

選定、収集、組織化、保存、公開の5つからなるウェブアーカイブのライフサイクル図 選定 収集 組織化 保存 公開 ウェブアーカイブのライフサイクル

選定

対象となるウェブサイトを選定します。特定の主題にターゲットを絞ったものから、一国全体のウェブサイトを対象とするもの、世界中のウェブサイトを包括的に集めるものまで、その目的や実施機関の種類、規模によって様々です。大きく分けると選択収集とバルク収集の2種類があり、両者を組み合わせて行っているウェブアーカイブもあります。

選択収集

特定のウェブサイトにターゲットを絞って収集することを「選択収集(Selective Harvesting)」といいます。サイト単位やページ単位などの収集単位も指定します。小~中規模のウェブアーカイブの場合や、以下に紹介する「バルク収集」のための法律制度が無い場合などに採用される収集方法です。ウェブサイトにも著作権があるため、法律により著作権が制限されていない場合には、事前に発信者の許諾を得てから行う必要があります。

バルク収集

バルク収集(Bulk Harvesting)」とは、「.fr」や「.de」などの国別ドメイン全体を対象にウェブサイトを大規模に収集することです。なかには世界全体のウェブサイトを収集対象とするインターネットアーカイブのような機関もあります。

一国全体を対象とするバルク収集の多くは、国立図書館などの公的機関が法律制度に基づいて行っています。法律によってウェブサイトの著作権を制限しているため、事前に発信者の許諾を得る必要はありません。国立国会図書館も2010年4月に施行された改正国立国会図書館法に基づいて、公的機関のウェブサイトを発信者の許諾を得ること無く収集を行っています(2.国立国会図書館法に基づく収集 | インターネット資料の収集 | 国立国会図書館)。このように法律制度に基づいて行う収集は「制度収集」とも呼ばれます。

収集

対象となるウェブサイトを実際に収集します。収集ロボット(クローラ)と呼ばれる自動収集プログラムを用いて収集します。収集する頻度や収集する深さなども指定します。

組織化

集めたウェブサイトに対してタイトルや公開者などの情報を付与します。これらの情報はメタデータと呼ばれます。また、全文検索サービスを提供する場合にはインデクス処理を行います。

保存

収集したウェブサイトを電子書庫(ストレージ)に保存します。長期にわたって利用を保障できるように、ウェブアーカイブに適したファイルフォーマットで保存します。多くの機関でウェブアーカイブの保存用ファイルフォーマットであるWARC(Web ARChive)が採用されています。

公開

ウェブアーカイブの目的や事情に応じて公開の範囲は様々です。収集するだけで非公開(ダークアーカイブ)、学術研究など限られた目的に対してのみ公開や施設内でのみ公開(グレイアーカイブ)、インターネット上で公開(ホワイトアーカイブ)など色々な公開レベルがあります。

(最終更新日:2014/10/1)