[salesforce][OpenData][LinkedData][OSS] OpenRefineでCSVデータクレンジング

By |7月 26, 2013|Open Data, OSS, salesforce, |


Salesforce導入時に既存システムや旧システムからデータを移行することはよくあります。世の中には色々なツールが出回っていると思いますが、オープンソースで結構優れているOpenRefine(旧GoogleRefine)をご紹介します。

ローカルで動くWebアプリケーションなので、どれだけ多くのデータ量をさばけるかはマシンスペックやマシンの状態次第ですが、数万件であれば問題なく動きます。

主な機能としては以下になります。

  • ソートや絞り込みはもちろん
  • 同列に存在する値をGroup Byして表示
  • 上記Group Byリストからの絞り込み
  • 絞り込んだ同一値の一括編集
  • 表記揺れの自動検出とマージ
  • 数値データの分布表示と範囲絞り込み
  • GREL(数式のようなもの)を利用した値や列の加工
  • Redo/Undoでロールバックできる

詳しい使い方を解説しようと思ったのですが以下に解りやすい動画がありましたのでこちらをどうぞ。

上記の動画では日本語データを扱ってませんが日本語データも問題なく扱えます(ただしutf-8のみ)Create Project画面でCharacter encoding欄にutf-8を選択してください。

また、RDF Refineと組み合わせれば、前回の[salesforce][OpenData][LinkedData] オープンデータの試行運用が開始されましたで紹介しましたLinkedDataへの変換も可能です。

こちらも以下の動画で紹介されてますのでご覧ください。