【Perl】ホームページの更新日時を取得する(html,pdfなど)
ホームページの更新日時取得する方法。
「更新が滞っているページ」や「最も古いページ」を調べたい場合、以下のPerlのコードで更新日時を取得できます。
(1) modifieddate.pl
-
use LWP::Simple;
-
use HTTP::Status;
-
require LWP;
-
require LWP::UserAgent;
-
-
-
while (my $line = <URLLIST>){
-
chomp($line);
-
$url = $line;
-
$request = new HTTP::Request HEAD => $url;
-
-
print "$url\t";
-
print "\n";
-
-
-
}
-
-
を参考に作成
-
(2) urllist.txt
調べるURLはurllist.txtに1行ずつ書いておきます。スクリプトと同じフォルダにおいてください。
http:// hogehogehogehoge/xx.html
http:// hogehogehogehoge/yy.html
http:// hogehogehogehoge/zz.html
ウェブページからリンクを抽出するには以下のようなサイトが便利(リンク、抽出、で検索)。
(3)実行
コマンドラインでmodifieddate.plのフォルダに移動し以下を実行。
perl modifeddate.pl > result.txt
(4)結果
result.txtはこんな感じになります。pdfなどでも取得できるようです。タブ区切りで生成されるのでエクセルなどで読み込んでください。
http:// hogehogehogehoge/zz.pdfThu, 15 Sep 2011 02:23:46 GMT
http:// hogehogehogehoge/zz.html Thu, 15 Sep 2011 02:23:46 GMT