2009年6月29日月曜日

Java related tools

JUNG — the Java Universal Network/Graph Framework--is a software library that provides a common and extendible language for the modeling, analysis, and visualization of data that can be represented as a graph or network. It is written in Java, which allows JUNG-based applications to make use of the extensive built-in capabilities of the Java API, as well as those of other existing third-party Java libraries.

Jena is a Java framework for building Semantic Web applications. It provides a programmatic environment for RDFRDFSand OWLSPARQL and includes a rule-based inference engine.

2009年6月17日水曜日

JDMについて(1)

>>JDMについて<<
JDMはデータマイニングの標準APIでWEKA APIの標準API。
JSR 73(JDM1.0)の作業は2000年7月に始まり、2004年8月に最新版がリリース。
2つ目のJSR 247(JDM2.0)は2004年にプロジェクトがスタートし、2006年12月に公開レビュードラフトが承認。

5つのアルゴリズムの操作が可能。

1)属性重要度・・出力変数を予測するときに、重要度となる属性をランク付けする。
2)相関ルール・・同時に起こるアイテムを考察し、関係を発見する。
3)クラスタリング・・類似したデータ点のクラスタを見つけ出す。
4)回帰・・入力属性にもとづいて、出力変数の値を予測する。
5)分類・・離散属性を列挙値のひとつに分類する。

モデルの構築、評価、適用、保存の操作もサポート。
JDM2.0からは多変量解析、時系列分析、異常検出、変換、テキストマイニング、多目標モデル、モデル比較が追加。

◆主なJDMオブジェクト

JDMクラス群ではトップクラスのインターフェースであり、名前や説明などの基本情報を持ち、DMEによってMORに保存できる。データの物理的な側面(PhysicalDataSet)と論理的な側面(LogicalData)の両方が存在する。

◆学習モデル

出力は、Modelインターフェースで表現され、MiningObjectを継承するModelは、複数の基底クラスになる。各モデルはModelDetailを持ち、アルゴリズム固有の変数はModelDetailで表現される。

◆アルゴリズムの設定
ArgorithmSettingは設定を保持する共通基底クラス。KMeansSettingはk平均法の設定となる。

◆JDMタスク
主なタスクタイプは5つ。
1)モデルの構築、2)モデルの評価、3)統計値の計算、4)モデルの適用、5)MORからの入出力に関するタスク。TASKオブジェクトは、参照、再実行、実行が可能。

◆JDMを使った接続
Java Connection Architecture(JCA)を使用してDMEに接続する事ができる。
JNDIでConnectionFactoryインスタンスを取得し、ConnectionFactoryにユーザー名とパスワードを指定する。JDBCプロトコルのConnectionオブジェクトに似ている。

◆JDMモデルとPMML
PMML(Predictive Model Markup Language:予測モデルマークアップ言語)はDMG(Data Mining Group)が予測モデルを表現するために策定したXMLベースの標準言語

Data source from 集合知イン・アクション(ソフトバンククリエイティブ)

2009年6月15日月曜日

WEKAについて(1)

WEKA(ウェカ:Waikato Environment for Knowledge Analysis)はjavaで書かれたデータマイニングアルゴリズムのオープンソースソフトウェアである。ニュージーランドのワイカト大学で開発されてGNUで提供されている。2006年9月にオープンソースBIの開発ベンダーであるPentahoに買収された。
WEKAには、前処理、分類、回帰、クラスタリング、相関ルール、視覚化ルールが含まれている。

WEKAには重要なパッケージが6つある。
weka.coreパッケージは、他のパッケージから使われる共通コンポーネントを含む主なパッケージであり、属性、データセット、コンバータ、行列操作、テキスト分析、ソート表現、XMLをモデル化するクラスである。データセットを表現するためのクラスが含まれており、その各データセットはInstancesクラスによってあらわされる。Instancesクラスは事例をあらわすInstancesクラスのリストを持ち、各インスタンスは0個以上の属性を持つ。

weka.classifierは、分類アルゴリズムの実装を含む、数量予測のアルゴリズムであり、Instancesを使ってモデルを学習し、その学習したデータを分類する。。

weka.clustererは、クラスタリングアルゴリズムの実装を含み、Instancesからクラスタを作成し、その後、Instanceを適切なクラスタに分類する。

weka.attributeselectionは、属性選択に関するアルゴリズム。

weka.associationsは、相関ルールの発見に関するアルゴリズム。AprioriとPredictive Aprioriの2つのアルゴリズムが含まれている。この2つは相関ルールの学習に使用され、Associatorインターフェースを継承する。
CARuleMinerは、クラスタ相関ルールを作成できるアルゴリズムに付与される。オプショナルインターフェースである。

weka.filtersはデータセットへのフィルタの適用に関するクラス、たとえばある属性を分析対象から外すためのものに使用される。

Data source from 集合知イン・アクション(ソフトバンククリエイティブ)

2009年6月12日金曜日

GuestBook.html

Google App EngineをEclipseで動かしてみる。
とすんなりといった。名前を聞いてきた(Please enter your name:)ので
nextschoolと入力すると。
のような画面がでてきました。GAE版のHello World!!だろう。



Sending name to the server:




nextschool




Server replies:




Hello, nextschool!

I am running Google App Engine Development/1.2.0.

It looks like you are using:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; GTB6; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618)

ということで、実験してみたい環境は着々と試せているけれど、そういえばひとつもデータマイニングの事について言及していなかったと我に返ってみる。これからは英文も含めて論文や文献の要約を試みよう。

2009年6月7日日曜日

研究テーマになやむとき


思考の整理学-カクテル-論文を書こうとしている学生にいうことにしている。
「テーマはひとつでは多すぎる。すくなくとも、二つ、できれば、三つもって、スタートしてほしい。」

ひとつで多いというのは、”見つめたナベ”のようになってしまうことから、ひとつがうまくいかないと後がなくなってしまうということからだそうだ。

2009年6月4日木曜日

Social Networks Visualizer (SocNetV)

Social Networks Visualizer (SocNetV)はC++とqtで記述されたソーシャルネットワーキングを可視化するオープンソースプログラム。以下のディストリビューションに対応している。

  • Ubuntu

  • Debian

  • Mandriva

  • openSUSE

  • Fedora

  • Gentoo

  • Windows users

  • Mac OS


Data Source from http://www.kdnuggets.org/

2009年6月3日水曜日

WEKA APIの入口を見てみる

Weka APIのJAVA版を使用してみるための参考資料