[radian6]radian6のよくある質問集 その2 クローリング
Radian6解説2回目。今回はソーシャルデータのクローリングについて色々解説。
参考:Social Media Blog
Radian6 Applications
※Radian6はmarketing cloudに統合されました。
Q:どのような手法でクローリングしているか
A:検索エンジンとは異なる独自のデータクローリングを行っています。RSSフィードの収集、一般的なクローラー的収集、Twitterに関してはStreaming APIのfirehoseを使って全公開ツイートを収集しています。Faecbookについては別エントリにて後述します。
Q:クロール対象から除外しているサイトはあるか
A:Radian6は一般的な検索エンジンと異なりソーシャルメディアしかクロール対象にしていません。また各サイトの利用規約を遵守したクローリングを行っています。勿論クローズドなサイトのデータは収集できないし、していません。
Q:収集先サイトのリストは公開されているか
A:ソーシャルメディアサイトは日々変化しており、サイト名やドメインの変化、誕生/停止も非常に激しく、公開リストを提供することが困難です。必要であれば都度サポートに問い合わせると良いみたいです。
Q:クロール先URLの追加方法
A:カスタムソースフィルター機能を使うことにより、自分でクロール先URLを追加することが可能です。