IT Office Nishimiyahara

個人用スマホから商用プログラミングまでなんでもお任せ下さい

Web::Scraperで正規表現を使って必要なリンクだけを取得する方法

      2014/03/02

わかってしまえば単純なことでした。

XPathでも同じようにできます。

Web::Scraperにはフィルタの概念があって、取得してからごにょごにょできるので、そっちのほうばかり調べていました。
例えば以下のようなHTMLの場合、そのまま取得すると、前後に改行が入ってしまいます。

で、それを取得する時に、前後の改行を削除してやることができます。

こういう機能をフィルタと呼んでいます。
その機能を先に知ったので、取得したあとに拡張子を調べてマッチした場合だけ追加する、という方法を探していたのですが、考えてみれば、取得してからきれいにするよりも、最初からきれいに取るほうがいいですね。


以上を踏まえて書き直したのが以下のコード。
ついでだったので、Acme::PerlTidyを使って、自動的にコードの整形をしてもらいました。
実行時には不要なので、削除して使ってもまったく問題ありません。
CPAN:☼ 林永忠 ☼ / Acme-PerlTidy - search.cpan.org

respo

respo link

ZenBackWidget

 - 情報技術について