国立国会図書館インターネット資料収集保存事業 (WARP)

国立国会図書館インターネット資料収集保存事業(WARP)でのクッキーの使用

当ウェブサイト(https://warp.ndl.go.jp/)は、図書館サービスとしてウェブサイトを機能させるために必要なクッキー(Cookie)を使用しています。また、当ウェブサイトの利用状況を計測し、改善に役立てるためのアクセス解析クッキーを設定することもありますが、このクッキーは、利用者が同意した場合にのみ設定されます。同意はいつでも取り消すことができます。

ウェブサイトの正常な動作に「必要最小限」のクッキー(常に有効)

  • 当ウェブサイトは、セキュリティ、ネットワーク管理、アクセシビリティなどの基本的な機能を正常に機能させるために必須なクッキーをあらかじめ設定しています。
  • ブラウザのクッキー設定を変更することで、必要最小限のクッキーを無効にできますが、ウェブサイトの機能に影響を与える場合があります。

「全て同意」を選択した場合に設定されるクッキー(利用パターン解析)

  • 当ウェブサイトのアクセス統計機能を使用して、アクセスログの解析によりウェブサイト利用者の利用パターンを解析し、サービスの評価・改善に役立てます。

クッキーとは、利用者がウェブサイトにアクセスしたときに、ご利用の端末(スマートフォンやタブレット、PC等)に保存される小さなテキストファイルです。より詳しく知りたい方は、 プライバシーポリシー をご確認ください。

クッキーの使用について:

よくあるご質問

ウェブアーカイブ全般について

どのようなウェブサイトを保存していますか。

国の機関、都道府県、政令指定都市、市町村、市町村合併の法定合併協議会、独立行政法人や特殊法人等の法人・機構、大学・学術機関、イベント・スポーツ、電子雑誌などを保存しています。

どのくらいの頻度で収集するのですか。

国の機関は月に1回、地方自治体等の公的機関は年4回、民間のウェブサイトは原則として年1回収集します。イベントについては開催頻度を、電子雑誌については刊行頻度やバックナンバーの有無を考慮して、収集漏れが発生しないよう収集頻度を決めています。

収集されたウェブサイトは、いつ公開されるのですか。

収集後に、収集状況の確認や公開範囲(インターネット公開あるいは館内限定公開)の設定等を行う必要がありますので、原則として収集翌月下旬に公開します。例えば、4月に収集したウェブサイトは5月下旬に公開します。

収集されたデータは、どのくらいの期間保存されるのですか。

技術的に可能な限り、長期間にわたり保存・提供していくことを目的としています。

国立国会図書館インターネット資料収集保存事業(WARP)にリンクを張りたいのですが、必要な手続きはありますか。

国立国会図書館インターネット資料収集保存事業のサイトポリシーを参照の上、自由に行っていただいて結構です。なお、WARPに保存された個別のコンテンツにリンクする場合は、画面上部のバナーにある「URLをコピー」ボタンで取得したURLをリンク先アドレスとしてください。

収集やコンテンツの閲覧提供にどのようなアプリケーションを使っていますか。

次のオープンソースソフトウェアを採用しています。

  • 収集:Heritrix https://github.com/internetarchive/heritrix3
  • 閲覧提供:pywb https://github.com/webrecorder/pywb
  • 検索:Elasticsearch https://www.elastic.co/jp/elasticsearch
また、収集したウェブサイトの保存形式としてWARC形式を採用しています。WARC形式の概要は次のページをご覧ください。

ウェブサイトの収集について

どのように収集するのですか。

自動収集プログラム(収集ロボット)で収集します。詳しい仕組みは以下をご覧ください。

収集される側に負荷がかかりますか。

収集ロボットの設定において、ダウンロードの間隔を1秒以上空けるなど、サーバへの負担を軽減するようにしておりますので、収集対象のサーバへ与える負荷は、大きなものではありません。

機関内部のみに公開しているデータも収集されますか。

インターネット上で一般に公開されていないデータは収集しません。

全てのファイルを収集できるのですか。

現在の収集ロボットの技術では、データを完全に収集することはできません。例えば、次の類型にあてはまるファイルは、収集ができなかったり、表示の際にレイアウトがくずれたりする場合があります。

  • データベースに格納されているファイル
  • ストリーミングのようにダウンロードと同時に再生するファイル
  • ロボット排除の設定がされているファイル
  • JavaScriptにより動的にリンク生成されるファイルの一部
  • スタイルシートファイルやJavaScriptファイル
  • 文字コードの認識に問題があるファイル
  • 大容量(およそ500MB以上)のファイル

国立国会図書館インターネット資料収集保存事業(WARP)で保存されれば、紙媒体の資料は納本しなくてもよいですか。

国立国会図書館インターネット資料収集保存事業(WARP)の趣旨は、インターネット上の情報を後世に残すことにあり、紙資料の保存とは趣旨が異なります。紙資料と同一内容の資料がウェブサイト上に掲載された場合はWARPでも収集することがありますが、これにより納本が不要となるわけではありません。引き続き、納本のご協力を賜りますよう、よろしくお願い申し上げます。

検索について

コンテンツ中のキーワードがヒットしません。

システムの仕様上、コンテンツの先頭から5000文字が検索できるようになっています。そのため、5000文字以降の文章は検索してもヒットしません。

URLがヒットしません。

末尾のindex.htmlやindex.htmを省略して検索を試してください。

検索結果の「適合度順」とは、どのような並び順でしょうか。

「適合度順」は、検索語がより高い頻度で含まれる(出現する)コンテンツが上位にくるような並び順です。検索キーワードの出現頻度、文書サイズ等を元に、総合的に適合度を計算しています。

「検索結果をまとめる」のはまとめない時と何が違うのですか。

まとめられた検索結果では、URL、サイト、公開者のいずれかの項目でまとめられた検索結果が表示されます。URLでまとめる場合、検索結果には同一のURLにつき1件しか表示しないため、表示されるコンテンツのURLは全て異なります。URLでまとめない場合に、同一のURLであっても保存日が異なるコンテンツが検索結果に並ぶ傾向にあるため、初期状態ではURLでまとめるようにしています。また、サイトや公開者でまとめる場合、サイトや公開者の同じコンテンツは1件しか表示しないため、ヒットしたコンテンツがどのサイトや公開者に含まれるものなのかが把握しやすくなります。

実際とは異なるコンテンツ種別が表示されます。

収集した際に収集先のサーバから指定されたMIMEタイプを登録していますので、検索結果の表記が実際のコンテンツ種別と異なる場合があります。

保存したウェブサイトの閲覧について

画面上部に帯状に表示される注意書きは何ですか。

国立国会図書館インターネット資料収集保存事業(WARP)で保存しているウェブサイトには、画面上部に保存日等が記載された注意書きが表示されます。こうすることで、ご覧のウェブサイトが過去のものであることがわかり、現在のウェブサイトと区別することができます。
※画像やOffice系ファイルなど一部のファイルには注意書きが正しく表示されないものもあります。

館内限定公開とは何ですか。

保存したウェブサイトは、全て国立国会図書館内でご覧いただけます。さらに、発信者の許諾が得られたものはインターネット上でも公開いたします。「館内限定公開」となっているものは、発信者の許諾が得られなかった等の理由で、国立国会図書館内(東京本館・関西館・国際子ども図書館)内に設置された端末でのみご覧いただけるものです。

表示できない箇所があります。

現在の収集ロボットの技術では、データを完全に収集することはできません。例えば、次の類型にあてはまるファイルは収集ができなかったり、収集ができていてもレイアウトがくずれたりする場合があります。

  • データベースに格納されているファイル
  • ストリーミングのようにダウンロードと同時に再生するファイル
  • ロボット排除の設定がされているファイル
  • JavaScriptにより動的にリンク生成されるファイルの一部
  • スタイルシートファイルやJavaScriptファイル
  • 文字コードの認識に問題があるファイル
  • 大容量(およそ500MB以上)のファイル
なお、保存した過去のページではなく、現在のページにリンクしている場合があります。保存した過去のページであるかどうかは、アドレス欄のURLで区別できます。

文字化けしています。

文字コードが認識できないページを表示する際に文字化けする場合があります。保存したページの文字コードが認識できない場合には一律UTF-8として処理していることが原因です。ブラウザで文字コードを変更する拡張機能をお使いいただき、文字コードの変更をお試しください。

ページの一部しか印刷できません。

採用している技術の関係で、インターネットで閲覧している場合は印刷したい範囲を選択してから印刷する必要があります。
ページ全体を印刷する場合は、「すべて選択」をしてから印刷してください。Windowsではすべて選択(Ctrl+A)および印刷(Ctrl+P)、MacOSではすべて選択(command+A)および印刷(command+P)のショートカットキーをお使いいただけます。※すべて選択した場合に画面上部のバナーも選択される場合は、コンテンツ表示エリアの空白箇所を一度クリックしたうえで、すべて選択を実行してください。
または、Firefoxのようにフレームの印刷が可能なブラウザをお使いの場合は、右クリックメニュー「このフレーム」>「フレームを印刷」をお使いください。

画面上部の注意書き(バナー)が表示されません。

URLが「https://warp.ndl.go.jp/年月日/保存日時/~」から始まっているとバナーが表示されません。バナーを表示させるには、「/年月日/保存日時/~」の「/年月日/」部分を「/web/」に変更してアクセスしてください。
なお、次のような操作をした場合にバナーが表示されなくなります。

  • ページ内のURLを右クリックでコピーし、コピーしたURLにアクセス
  • ページ内のURLを別タブで開く
外部からWARPのコンテンツにリンクを張る場合には、画面上部バナーにある「URLをコピー」ボタンでコピーされるURLをお使いください。

リンクをクリックしても、画面が変化しません。

国立国会図書館インターネット資料収集保存事業(WARP)では、画面の表示にJavaScriptを使用しています。ブラウザの設定でJavaScriptを有効にしてください。また、ネットワークの問題で、画面の切り替えに時間がかかる場合があります。時間をおいてもう一度お試しください。

収集されたページ上に表示される更新日時と、保存日が矛盾しています。

国立国会図書館インターネット資料収集保存事業(WARP)では、ウェブ上の情報を国立国会図書館のサーバに複製し、保存・提供しています。そのため、更新日時などの情報を動的に表示する仕組みのページの場合、正しく表示されない場合があります。

保存されたウェブサイトの著作権はどうなっていますか?

保存されたウェブサイトの著作権は、元の著作権者に帰属しています。それぞれの著作権に十分留意して、著作権法に定める私的使用等の範囲内で、ご利用ください。二次利用(画像、文書、記事、データ等の転載等)をしたい場合は、ご自身で元の著作権者から許諾を得てください。

収集したデータは国立国会図書館で閲覧できますか。

原則として、全て、国立国会図書館(東京本館・関西館・国際子ども図書館)内に設置された端末で閲覧できます。

収集したデータはインターネット上で公開されますか。

国立国会図書館が事前に発信者から許諾を得たページは、インターネット上で公開されます。許諾が得られなかったものは国立国会図書館(東京本館・関西館・国際子ども図書館)内に設置された端末のみで閲覧できます。

国立国会図書館で紙への複写(プリントアウト)はできますか。

国立国会図書館が事前に発信者から許諾を得たページについては、国立国会図書館の来館利用による紙への複写(プリントアウト)が可能です。許諾が得られなかったものは紙への複写(プリントアウト)はできません。また、国立国会図書館外(遠隔地)からの複写申込はできません。

国立国会図書館でデータをダウンロードすることはできますか。

国立国会図書館(東京本館・関西館・国際子ども図書館)からデータを館外に持ち出すことはできません。

PDFの中には印刷不可と設定されているファイルがありますが、こうしたファイルの複写(プリントアウト)はどのようになりますか。

複写(プリントアウト)の許諾をいただいていないものとみなし、複写(プリントアウト)は実施いたしません。

収集されたページに改竄や著作権上の問題があった場合、修正・削除は可能ですか。

当館の規定に基づき、利用制限等の措置が可能か検討させていただきます。サイト管理者様からメールにてご連絡をお願いいたします。

大量のデータをまとめてダウンロードしたいのですが、そのための機能はありませんか。

ブラウザによる閲覧を主な使い方として想定しておりますので、一括ダウンロード機能やデータ取得のためのAPIは備えておりません。なお、大量の機械的アクセスはシステムに負荷をかけますのでおやめください。システムに悪影響を及ぼすと国立国会図書館が判断したアクセスについては遮断する場合があります。

保存したウェブサイトの詳細画面について

「このウェブサイトに含まれる電子雑誌等」にはどのようなページが掲載されているのですか。

「このウェブサイトに含まれる電子雑誌等」には、継続して発行されている電子雑誌等のページを登録しています。保存したウェブサイトを調査し順次登録作業を行っておりますが、各ウェブサイトに含まれる電子雑誌タイトルを網羅できているわけではありません。

「このウェブサイトに含まれる特定テーマに関するページ」にはどのようなページが掲載されているのですか。

社会的に注目されるテーマ・イベントや、保存している機関が有する施設のページを登録しています。

サムネイルや「保存した新規URL数の推移」等の欄がない詳細画面は何ですか。

「このウェブサイトに含まれる電子雑誌等」又は「このウェブサイトに含まれる特定テーマに関するページ」として登録されたページの詳細画面です。保存したウェブサイトの特定URLに対してメタデータを付与し登録したもので、サムネイルや「保存した新規URL数の推移」等を表示していません。

公的機関のウェブサイトについて

制度収集とは何ですか。

公的機関が公開しているウェブサイトを、国立国会図書館が国立国会図書館法に定める制度に基づいて収集することです。

公的機関のウェブサイト上の全てのページが制度収集の対象になりますか。

公的機関が公開しているウェブサイトの全てのページが制度収集の対象です。

収集に際し、何か作業を行う必要がありますか。

収集ロボットを排除する"ロボット排除"という設定をされている場合は、ロボット排除設定の解除をお願いいたします。ロボット排除設定の解除につきましては、以下の「国立国会図書館法によるインターネット資料の収集について」の「4.収集方法」をご参照ください。

複数のドメインを運用している場合、それを国立国会図書館に通知する必要がありますか。

国立国会図書館にて対象ドメインを調査しますので、通知は必須ではありませんが、収集漏れ防止のためにもお知らせいただけますと幸いです。「公的機関のウェブサイト管理者の皆様へ」のページもご参照ください。

ウェブサイトの更新やURLに変更があった場合、通知が必要ですか。

通知は不要です。

外部リンクも収集されますか。

リンク先が制度収集の対象外であれば、収集しません。

機関リポジトリの取扱いはどのようになりますか。

機関リポジトリで公開しているインターネット資料は、「長期間にわたり継続して公衆に利用可能とすることを目的としているものであって、かつ、特段の事情なく消去されないと認められるもの」に相当すると考えられますので、基本的には収集いたしません。IRDB(学術機関リポジトリデータベース) 機関リポジトリ一覧に掲載されているものは、収集対象としておりません。

自機関が館内限定公開になっているのはなぜですか。

国立国会図書館からの許諾依頼に対して、インターネット公開不可の回答をいただいている場合や、 未回答の場合は、館内限定公開としております。また、許諾いただけた範囲がごく一部に限られる場合も、 館内限定公開としております。 「公的機関のウェブサイト管理者の皆様へ」のページもご参照ください。

自機関を館内限定からインターネット公開に変更できますか。

インターネット公開は、各機関の許諾に基づき行っております。 「公的機関のウェブサイト管理者の皆様へ」のページをご確認いただき、メールにてご連絡をお願いいたします。

インターネット公開から館内限定公開に変更したいページがあります。

「公的機関のウェブサイト管理者の皆様へ」のページをご確認いただき、お申出をお願いします。 第三者(そのページの作成者、そのページに掲載されている情報や写真の本人等)からのお申出はお受けできませんので、 その機関のウェブサイト管理者様にご相談ください。

民間のサイトについて

民間のサイトはどのように収集しているのですか。

民間のウェブサイトは、発信者の許諾が得られたものを保存しています。公益法人、私立大学、政党、国際的・文化的イベント、東日本大震災に関するウェブサイト、電子雑誌などが主な対象です。

  1. 当館にて候補を選定します。
  2. 当館から発信者宛に許諾依頼文書を発送します。
  3. 発信者にて検討の上、回答書にご記入、ご返送いただきます。
  4. 回答書にご記入いただいた内容に基づき、当館が自動収集プログラム(収集ロボット)で収集を実施します。技術的に収集が困難であることが判明した場合、収集又は公開を見合わせる場合がございます。
  5. 問題なく収集できたことを確認した後に公開します。

電子雑誌について

「電子雑誌」とはどのようなものですか。

同一のタイトルのもとに、終期を予定せず、巻次・年月次等の表示を伴って、継続的に発行されるネットワーク系電子情報を、電子雑誌と定義しています。国立国会図書館インターネット資料収集保存事業(WARP)では、インターネット上で無償公開されているものを保存しています。なお、電子雑誌のみの新規収集は現在行っておりません。保存したウェブサイトに含まれる電子雑誌は「このウェブサイトに含まれる電子雑誌等」として登録しています。

誌名を変更しました。

誌名を変更した場合には、ご連絡いただけますと幸いです。旧誌名のタイトルとは別に、新誌名でメタデータを作り、旧誌名と同様の条件にて収集・保存・提供をさせていただきます。

電子雑誌のISSNは紙媒体の雑誌と同じでいいですか。

ISSNは、内容が同じでも媒体が違う場合(紙媒体、マイクロ、電子形態等)は、それぞれ別のISSNが付与されます。必須ではありませんが、ISSNの登録にご協力いただくようお願いいたします。

電子雑誌を出版したので保存してもらえますか。

公的機関の電子雑誌は、公的機関ウェブサイトの中に含む形で保存しています。民間の電子雑誌については、納入方法等の詳細を次のぺージでご案内しています。