インターネットアーカイブの使い方

 使い方と言ってもあまり詳しくありませんので、補足お願いします

インターネットアーカイブの説明と種類

 今回の騒動で大活躍している、自動徘徊型の老舗キャッシュ保存サイト。
 1996年からサービスを開始している。
 基本的にクローリングによってキャッシュを取得しているが、ユーザーがこのサービスを経由して見たページは高確率でキャッシュ化される。
 なので、登録型の保存サイトでもある。
 但し、robots.txtが置いてあるサイトは原則保存しない。

 結構仕様が変わるので、ある時期には見れなかったものが見れたり、逆に見れてたものが見れなくなったり、ということはよくあるらしい。
 また、現在はアーカイブされたページを対象にした検索はかなり制限されている。

[現行版]
http://archive.org/web/web.php
[ミラー版]
http://www.web.archive.bibalex.org/isis/frontend/archive/archive_web.aspx
http://bibalex.org/isis/frontend/archive/archive_web.aspx
 どちらでも同じ。
 現行版では手に入らないキャッシュがあるので要チェック。
[BETA版]
http://wayback-beta.archive.org/
 新版との違いはよく分からない。
[旧版]
http://web.archive.org/old-web/
 2013.09.27現在ではアクセスしても現行版に自動転送されてしまうので使用不可。

キャッシュを取得した全ての時点を表示したい場合

 http://web.archive.org/web/*/%対象URL%
 で可能。%は不要。

 *には本来アーカイブ時刻が入る。
 ちなみにアーカイブ時刻の後に*を入れても同じことが出来る。
 現行版を例にしたがBETA版・旧版でもほぼ同様。

指定したドメイン内でのディレクトリ検索

 http://web.archive.org/web/*/%検索したいドメインをhttp://から入力%*
 で可能。%は不要。

 ちなみにドメインが入力されていれば、その後は好きなところで切っても良い。
 例えば
 http://yokohama.cool.ne.jp/sunayuki/*
 でも良いし、
 http://yokohama.cool.ne.jp/suna*
 という検索方法も可能。
 但し、*(ワイルドカード)は末尾にしか使えない。
 現行版を例にしたがBETA版・旧版でもほぼ同様。

 現行版・BETA版では、ディレクトリ検索が実行された後のページで、更に「ディレクトリに......を含む」検索も可能。
 「ディレクトリに......を含まない」検索も出来そうだが、詳しく調べていない。詳しい人教えて。

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2013年10月06日 09:36