“Spidering Hacks”

“Practical Extraction and Report Language” 直訳すると「実用的抽出・報告書作成言語」となるが、そこをまとめて「Perl」とオシャレに呼ぶのが通な言語なのだけど、ここ一ヶ月くらい勉強を兼ねて自分用の小さなwebアプリを作成している。この言語自体はかなり昔から存在するものの、だからと言ってみんなが通ってくるわけじゃない。もちろん現役の言語だし、様々な分野・場所で使われている。

ただ、時代は推移して、新しい言語が生まれては古くなる。そんな中で CGI(Common Gateway Interface) が使われるようになってから、現在のようにPHPが出てきて席巻するまで、この市場はPerl独占状態だったように思う。自分はスクリプト言語ではPHPから入ったクチだけども、今Perlを触るようになり、この骨っぽく肉っぽい言語がwebという世界の裏方で稼動しまくっていたのだと思うと目から水が、、、コ、コレガ、、ニンゲンノ、、、ナミダトイウモノカ。となる

そして、Perlの入門書に選んだのが O’Reilly の “Spidering Hacks” なる本。まだPerlをさわったこともないのに、これをチョイスするとは、なかなか殊勝な心がけ。今見てみるとほとんどモジュールとweb技術の絡み合わせ、web上にはperlモジュールの良質なサンプルや使い方は少ないため、非常に参考になる本でした。ま、いわゆるリファレンス本とは違って実用的。

そう言えば、巷にはリファレンス本が数多く出回ってるけども。もちろん自分も何冊かは持ってるけど、頻繁に使うことって少ない、、、結局オンラインで調べたり、自分で書き出した関数リストとかで間に合うんだけど。紙媒体で欲しいものと言ったら、A4サイズくらいでペラペラに薄い関数表とか属性表かな。結局のとこなんだよなぁ、入門用にエイッと購入したものの、”重し”くらいにしか使ってないし。場所は取るし、積み重ねておくと雪崩が起こるし。あー、、自分で作りゃいいんだ、そうしよったらそうしましょ。

この本で勉強した、HTML::TreeBuilder, HTML::TokeParser のように、HTML::Parserを使用しているモジュールは内部でデータをUTF-8エンコーディングしてしまうので、モジュールからデータを取得するときは decode を使ってもとに戻しましょう。この件やperlのUnicodeまわりのトラブルについてはPerl 5.8 以降においての Unicode 文字列の扱い方 : NDO::Weblog: を参照されたし。


Leave a Reply

Your email address will not be published. Required fields are marked *