読者です 読者をやめる 読者になる 読者になる

データ・サイエンティストは可視化の夢を見るか?

Does Data Scientist Dream of Visualization?

Ruby によるクローラーを動かしてみたい

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

データ・サイエンスに慣れていくためには、研究用のデータが必要です。
でも、手作業で取得できる範囲は時間的にも空間的にも限られている。
そこで crawler を動かしてみよう、と思い立ちました。
ところが本書にしたがって Ruby の環境構築をしようとすると失敗する。
macOS Sierra 標準の Ruby ではいろいろと不都合が起こってしまうかのように、検索すると出てきます。
ですから Homebrew でローカル環境のなかで動く Ruby をインストールしようとしています。

いや、「もともと Ruby が動いているんだから gem install nokogiri とかすればいいじゃん?」っていう話もあるんですが、ビルド時にエラーを起こしたりコリジョンを起こすんですね。では、Bundler を使ってもあまり改善が見られない。


いろいろと面倒ですね………。


本書の最初の例題、『SB クリエイティブ』のダミー・サイトは削除されているし、では、ということで本体のサイトから topics を取得しても余計なデータが末尾に加わっているので、サンプルとして掲載されている ruby スクリプトがちゃんと動きません。というより、その末尾データでエラーを起こします(いわゆる正常動作ですね、この場合)。
という訳で、Web スクレイピングは運用上いろいろと問題が発生しそうなのは初心者の自分にも分かるようになってます。(滅)


追記:
Homebrew もきちんとアップグレードした上で、Ruby 環境をゼロから再構築しました。
後続記事に書いたとおり、いまでは nokogiri や MeCab も動いています。
ありがとうございます。