2009年6月17日水曜日

JDMについて(1)

>>JDMについて<<
JDMはデータマイニングの標準APIでWEKA APIの標準API。
JSR 73(JDM1.0)の作業は2000年7月に始まり、2004年8月に最新版がリリース。
2つ目のJSR 247(JDM2.0)は2004年にプロジェクトがスタートし、2006年12月に公開レビュードラフトが承認。

5つのアルゴリズムの操作が可能。

1)属性重要度・・出力変数を予測するときに、重要度となる属性をランク付けする。
2)相関ルール・・同時に起こるアイテムを考察し、関係を発見する。
3)クラスタリング・・類似したデータ点のクラスタを見つけ出す。
4)回帰・・入力属性にもとづいて、出力変数の値を予測する。
5)分類・・離散属性を列挙値のひとつに分類する。

モデルの構築、評価、適用、保存の操作もサポート。
JDM2.0からは多変量解析、時系列分析、異常検出、変換、テキストマイニング、多目標モデル、モデル比較が追加。

◆主なJDMオブジェクト

JDMクラス群ではトップクラスのインターフェースであり、名前や説明などの基本情報を持ち、DMEによってMORに保存できる。データの物理的な側面(PhysicalDataSet)と論理的な側面(LogicalData)の両方が存在する。

◆学習モデル

出力は、Modelインターフェースで表現され、MiningObjectを継承するModelは、複数の基底クラスになる。各モデルはModelDetailを持ち、アルゴリズム固有の変数はModelDetailで表現される。

◆アルゴリズムの設定
ArgorithmSettingは設定を保持する共通基底クラス。KMeansSettingはk平均法の設定となる。

◆JDMタスク
主なタスクタイプは5つ。
1)モデルの構築、2)モデルの評価、3)統計値の計算、4)モデルの適用、5)MORからの入出力に関するタスク。TASKオブジェクトは、参照、再実行、実行が可能。

◆JDMを使った接続
Java Connection Architecture(JCA)を使用してDMEに接続する事ができる。
JNDIでConnectionFactoryインスタンスを取得し、ConnectionFactoryにユーザー名とパスワードを指定する。JDBCプロトコルのConnectionオブジェクトに似ている。

◆JDMモデルとPMML
PMML(Predictive Model Markup Language:予測モデルマークアップ言語)はDMG(Data Mining Group)が予測モデルを表現するために策定したXMLベースの標準言語

Data source from 集合知イン・アクション(ソフトバンククリエイティブ)