ラベル Weka の投稿を表示しています。 すべての投稿を表示
ラベル Weka の投稿を表示しています。 すべての投稿を表示

2009年9月14日月曜日

Javaアーカイバーの環境設定(CIA編)

「集合知インアクション」のサンプルをいろいろと試すにあたり、自宅サーバーのJAVAの環境設定ができていないことに気がつき修正を行った。

まず.jarファイルの格納ディレクトリが、ここ( /usr/local/CIA/lib )にしているので、環境変数の設定を行う。

[root@nexserver conf]# vi /etc/profile ←該当のファイルを開く
開いたら、JAVA_HOMEの後ろに” : ”を入れて:$JAVA_HOME/usr/local/CIA/lib と追加する

export JAVA_HOME=/usr/java/jdk1.6.0_13
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.ja:$JAVA_HOME/usr/lo
cal/CIA/lib



こんな感じです。

ESCキーを押して編集モードから復帰させ、「:wq」を入力して保存します。

それで、編集した設定を有効にするためのコマンドを入力します。

[root@nexserver lib]# source /etc/profile

これで設定が完了。

試してみます。

JAVAのアーカイバーの移動

javaのARchiver(アーカイバー)を一カ所にまとめておいた方がよいと思い、一カ所にアーカイバーを集合させた。

その前にJAVAのディレクトリがどこにあるか把握しておくことが必要だったから、
whereis java で確認。
[root@nexserver java]# whereis java
java: /usr/bin/java /etc/java /usr/lib/java /usr/share/java

これらの中身を確認。
/usr/bin/java ・・・binaryファイル
/etc/java  ・・・ font.properties java.conf jpackage-release security が入っている。
/usr/lib/java  ・・・空っぽ
/usr/share/java ・・・jarがたくさん入っている。

なので/usr/share/java に集合させることに。

使用するjarは、CIAのもので
commons-codec-1.3.jar
commons-httpclient-3.0.1.jar
commons-logging-1.1.jar
lucene-core-2.2.0.jar
weka.jar
xercesImpl-2.6.2.jar

があるので、これらを

[root@nexserver lib]# mv *.jar /usr/share/java

で移動しました。
それできちんと移動できているか確認
[root@nexserver lib]# cd /usr/share/java
[root@nexserver java]# ls -a
. gcj-endorsed tomcat5-jsp-2.0-api.jar
.. gnu-classpath-tools-gjdoc-0.7.7.jar tomcat5-servlet-2.4-api-5.5.23.jar
antlr-2.7.6.jar gnu-classpath-tools-gjdoc.jar tomcat5-servlet-2.4-api.jar
antlr.jar hsqldb-1.8.0.9.jar weka.jar
bsf-2.3.0.jar hsqldb.jar xalan-j2-2.7.0.jar
bsf.jar jaxp_parser_impl.jar xalan-j2-serializer-2.7.0.jar
bsh-1.3.0.jar jaxp_transform_impl.jar xalan-j2-serializer.jar
bsh.jar jsp.jar xalan-j2.jar
com-sun-javadoc-0.7.7.jar jspapi.jar xerces-j2-2.7.1.jar
com-sun-javadoc.jar libgcj-4.1.1.jar xerces-j2.jar
com-sun-tools-doclets-Taglet-0.7.7.jar libgcj-4.1.2.jar xercesImpl-2.6.2.jar
com-sun-tools-doclets-Taglet.jar libgcj-tools-4.1.1.jar xml-commons-apis-1.3.02.jar
commons-codec-1.3.jar libgcj-tools-4.1.2.jar xml-commons-apis.jar
commons-httpclient-3.0.1.jar lucene-core-2.2.0.jar xml-commons-resolver-1.1.jar
commons-logging-1.1.jar servlet.jar xml-commons-resolver.jar
dom3-xerces-j2-2.7.1.jar servletapi5.jar
dom3-xerces-j2.jar tomcat5-jsp-2.0-api-5.5.23.jar

無事に移動できているようです。

2009年6月15日月曜日

WEKAについて(1)

WEKA(ウェカ:Waikato Environment for Knowledge Analysis)はjavaで書かれたデータマイニングアルゴリズムのオープンソースソフトウェアである。ニュージーランドのワイカト大学で開発されてGNUで提供されている。2006年9月にオープンソースBIの開発ベンダーであるPentahoに買収された。
WEKAには、前処理、分類、回帰、クラスタリング、相関ルール、視覚化ルールが含まれている。

WEKAには重要なパッケージが6つある。
weka.coreパッケージは、他のパッケージから使われる共通コンポーネントを含む主なパッケージであり、属性、データセット、コンバータ、行列操作、テキスト分析、ソート表現、XMLをモデル化するクラスである。データセットを表現するためのクラスが含まれており、その各データセットはInstancesクラスによってあらわされる。Instancesクラスは事例をあらわすInstancesクラスのリストを持ち、各インスタンスは0個以上の属性を持つ。

weka.classifierは、分類アルゴリズムの実装を含む、数量予測のアルゴリズムであり、Instancesを使ってモデルを学習し、その学習したデータを分類する。。

weka.clustererは、クラスタリングアルゴリズムの実装を含み、Instancesからクラスタを作成し、その後、Instanceを適切なクラスタに分類する。

weka.attributeselectionは、属性選択に関するアルゴリズム。

weka.associationsは、相関ルールの発見に関するアルゴリズム。AprioriとPredictive Aprioriの2つのアルゴリズムが含まれている。この2つは相関ルールの学習に使用され、Associatorインターフェースを継承する。
CARuleMinerは、クラスタ相関ルールを作成できるアルゴリズムに付与される。オプショナルインターフェースである。

weka.filtersはデータセットへのフィルタの適用に関するクラス、たとえばある属性を分析対象から外すためのものに使用される。

Data source from 集合知イン・アクション(ソフトバンククリエイティブ)

2009年6月3日水曜日

WEKA APIの入口を見てみる

Weka APIのJAVA版を使用してみるための参考資料