[radian6]radian6のよくある質問集 その2 クローリング

By |6月 10, 2011|Radian6, |


Radian6解説2回目。今回はソーシャルデータのクローリングについて色々解説。

参考:Social Media Blog
Radian6 Applications
※Radian6はmarketing cloudに統合されました。


Q:どのような手法でクローリングしているか

A:検索エンジンとは異なる独自のデータクローリングを行っています。RSSフィードの収集、一般的なクローラー的収集、Twitterに関してはStreaming APIのfirehoseを使って全公開ツイートを収集しています。Faecbookについては別エントリにて後述します。


Q:クロール対象から除外しているサイトはあるか

A:Radian6は一般的な検索エンジンと異なりソーシャルメディアしかクロール対象にしていません。また各サイトの利用規約を遵守したクローリングを行っています。勿論クローズドなサイトのデータは収集できないし、していません。


Q:収集先サイトのリストは公開されているか

A:ソーシャルメディアサイトは日々変化しており、サイト名やドメインの変化、誕生/停止も非常に激しく、公開リストを提供することが困難です。必要であれば都度サポートに問い合わせると良いみたいです。


Q:クロール先URLの追加方法

A:カスタムソースフィルター機能を使うことにより、自分でクロール先URLを追加することが可能です。