クローラー memo

ウェブサービスを作るにあたり、どっかからデータを引っ張ってきてそれを反映させたいときにはクローリングを作ることで開発が劇的に効率化する。ただし、むやみにデータを引っ張ってくるのはアウトなので、デリケートに使わなければいけない。

参考書は Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 Amazon CAPTCHA

取り上げられることが多いですがやはりめっちゃ楽しかったですこれは rubyの文法を一通り理解した人にとっては、クローラーだけではなくRuby文法の理解も一層深まりますのでオススメです。

クローラーの大まかな流れは

  1. 対象ページをダウンロード

  2. そのページを読み込んで解析(-> ソースコードの癖を見抜くなど....)

  3. 必要なデータ部分を文字列処理等で抜き出す

  4. データを加工する

  5. 出力する

以外とシンプル! しかし、3.4がなかなか初心者にとっては難しい所で、正規表現等はを上手く扱える必要があります。

奇跡的な競馬サービス作りたいので出馬表とか、過去のレース成績とかのデーター収集のために勉強していきますー。