JUNG — the Java Universal Network/Graph Framework--is a software library that provides a common and extendible language for the modeling, analysis, and visualization of data that can be represented as a graph or network. It is written in Java, which allows JUNG-based applications to make use of the extensive built-in capabilities of the Java API, as well as those of other existing third-party Java libraries.
Jena is a Java framework for building Semantic Web applications. It provides a programmatic environment for RDF, RDFSand OWL, SPARQL and includes a rule-based inference engine.
2009年6月29日月曜日
2009年6月17日水曜日
JDMについて(1)
>>JDMについて<<
JDMはデータマイニングの標準APIでWEKA APIの標準API。
JSR 73(JDM1.0)の作業は2000年7月に始まり、2004年8月に最新版がリリース。
2つ目のJSR 247(JDM2.0)は2004年にプロジェクトがスタートし、2006年12月に公開レビュードラフトが承認。
5つのアルゴリズムの操作が可能。
1)属性重要度・・出力変数を予測するときに、重要度となる属性をランク付けする。
2)相関ルール・・同時に起こるアイテムを考察し、関係を発見する。
3)クラスタリング・・類似したデータ点のクラスタを見つけ出す。
4)回帰・・入力属性にもとづいて、出力変数の値を予測する。
5)分類・・離散属性を列挙値のひとつに分類する。
モデルの構築、評価、適用、保存の操作もサポート。
JDM2.0からは多変量解析、時系列分析、異常検出、変換、テキストマイニング、多目標モデル、モデル比較が追加。
◆主なJDMオブジェクト
JDMクラス群ではトップクラスのインターフェースであり、名前や説明などの基本情報を持ち、DMEによってMORに保存できる。データの物理的な側面(PhysicalDataSet)と論理的な側面(LogicalData)の両方が存在する。
◆学習モデル
出力は、Modelインターフェースで表現され、MiningObjectを継承するModelは、複数の基底クラスになる。各モデルはModelDetailを持ち、アルゴリズム固有の変数はModelDetailで表現される。
◆アルゴリズムの設定
ArgorithmSettingは設定を保持する共通基底クラス。KMeansSettingはk平均法の設定となる。
◆JDMタスク
主なタスクタイプは5つ。
1)モデルの構築、2)モデルの評価、3)統計値の計算、4)モデルの適用、5)MORからの入出力に関するタスク。TASKオブジェクトは、参照、再実行、実行が可能。
◆JDMを使った接続
Java Connection Architecture(JCA)を使用してDMEに接続する事ができる。
JNDIでConnectionFactoryインスタンスを取得し、ConnectionFactoryにユーザー名とパスワードを指定する。JDBCプロトコルのConnectionオブジェクトに似ている。
◆JDMモデルとPMML
PMML(Predictive Model Markup Language:予測モデルマークアップ言語)はDMG(Data Mining Group)が予測モデルを表現するために策定したXMLベースの標準言語
Data source from 集合知イン・アクション(ソフトバンククリエイティブ)
JDMはデータマイニングの標準APIでWEKA APIの標準API。
JSR 73(JDM1.0)の作業は2000年7月に始まり、2004年8月に最新版がリリース。
2つ目のJSR 247(JDM2.0)は2004年にプロジェクトがスタートし、2006年12月に公開レビュードラフトが承認。
5つのアルゴリズムの操作が可能。
1)属性重要度・・出力変数を予測するときに、重要度となる属性をランク付けする。
2)相関ルール・・同時に起こるアイテムを考察し、関係を発見する。
3)クラスタリング・・類似したデータ点のクラスタを見つけ出す。
4)回帰・・入力属性にもとづいて、出力変数の値を予測する。
5)分類・・離散属性を列挙値のひとつに分類する。
モデルの構築、評価、適用、保存の操作もサポート。
JDM2.0からは多変量解析、時系列分析、異常検出、変換、テキストマイニング、多目標モデル、モデル比較が追加。
◆主なJDMオブジェクト
JDMクラス群ではトップクラスのインターフェースであり、名前や説明などの基本情報を持ち、DMEによってMORに保存できる。データの物理的な側面(PhysicalDataSet)と論理的な側面(LogicalData)の両方が存在する。
◆学習モデル
出力は、Modelインターフェースで表現され、MiningObjectを継承するModelは、複数の基底クラスになる。各モデルはModelDetailを持ち、アルゴリズム固有の変数はModelDetailで表現される。
◆アルゴリズムの設定
ArgorithmSettingは設定を保持する共通基底クラス。KMeansSettingはk平均法の設定となる。
◆JDMタスク
主なタスクタイプは5つ。
1)モデルの構築、2)モデルの評価、3)統計値の計算、4)モデルの適用、5)MORからの入出力に関するタスク。TASKオブジェクトは、参照、再実行、実行が可能。
◆JDMを使った接続
Java Connection Architecture(JCA)を使用してDMEに接続する事ができる。
JNDIでConnectionFactoryインスタンスを取得し、ConnectionFactoryにユーザー名とパスワードを指定する。JDBCプロトコルのConnectionオブジェクトに似ている。
◆JDMモデルとPMML
PMML(Predictive Model Markup Language:予測モデルマークアップ言語)はDMG(Data Mining Group)が予測モデルを表現するために策定したXMLベースの標準言語
Data source from 集合知イン・アクション(ソフトバンククリエイティブ)
2009年6月15日月曜日
WEKAについて(1)
WEKA(ウェカ:Waikato Environment for Knowledge Analysis)はjavaで書かれたデータマイニングアルゴリズムのオープンソースソフトウェアである。ニュージーランドのワイカト大学で開発されてGNUで提供されている。2006年9月にオープンソースBIの開発ベンダーであるPentahoに買収された。
WEKAには、前処理、分類、回帰、クラスタリング、相関ルール、視覚化ルールが含まれている。
WEKAには重要なパッケージが6つある。
weka.coreパッケージは、他のパッケージから使われる共通コンポーネントを含む主なパッケージであり、属性、データセット、コンバータ、行列操作、テキスト分析、ソート表現、XMLをモデル化するクラスである。データセットを表現するためのクラスが含まれており、その各データセットはInstancesクラスによってあらわされる。Instancesクラスは事例をあらわすInstancesクラスのリストを持ち、各インスタンスは0個以上の属性を持つ。
weka.classifierは、分類アルゴリズムの実装を含む、数量予測のアルゴリズムであり、Instancesを使ってモデルを学習し、その学習したデータを分類する。。
weka.clustererは、クラスタリングアルゴリズムの実装を含み、Instancesからクラスタを作成し、その後、Instanceを適切なクラスタに分類する。
weka.attributeselectionは、属性選択に関するアルゴリズム。
weka.associationsは、相関ルールの発見に関するアルゴリズム。AprioriとPredictive Aprioriの2つのアルゴリズムが含まれている。この2つは相関ルールの学習に使用され、Associatorインターフェースを継承する。
CARuleMinerは、クラスタ相関ルールを作成できるアルゴリズムに付与される。オプショナルインターフェースである。
weka.filtersはデータセットへのフィルタの適用に関するクラス、たとえばある属性を分析対象から外すためのものに使用される。
Data source from 集合知イン・アクション(ソフトバンククリエイティブ)
WEKAには、前処理、分類、回帰、クラスタリング、相関ルール、視覚化ルールが含まれている。
WEKAには重要なパッケージが6つある。
weka.coreパッケージは、他のパッケージから使われる共通コンポーネントを含む主なパッケージであり、属性、データセット、コンバータ、行列操作、テキスト分析、ソート表現、XMLをモデル化するクラスである。データセットを表現するためのクラスが含まれており、その各データセットはInstancesクラスによってあらわされる。Instancesクラスは事例をあらわすInstancesクラスのリストを持ち、各インスタンスは0個以上の属性を持つ。
weka.classifierは、分類アルゴリズムの実装を含む、数量予測のアルゴリズムであり、Instancesを使ってモデルを学習し、その学習したデータを分類する。。
weka.clustererは、クラスタリングアルゴリズムの実装を含み、Instancesからクラスタを作成し、その後、Instanceを適切なクラスタに分類する。
weka.attributeselectionは、属性選択に関するアルゴリズム。
weka.associationsは、相関ルールの発見に関するアルゴリズム。AprioriとPredictive Aprioriの2つのアルゴリズムが含まれている。この2つは相関ルールの学習に使用され、Associatorインターフェースを継承する。
CARuleMinerは、クラスタ相関ルールを作成できるアルゴリズムに付与される。オプショナルインターフェースである。
weka.filtersはデータセットへのフィルタの適用に関するクラス、たとえばある属性を分析対象から外すためのものに使用される。
Data source from 集合知イン・アクション(ソフトバンククリエイティブ)
2009年6月12日金曜日
GuestBook.html
Google App EngineをEclipseで動かしてみる。
とすんなりといった。名前を聞いてきた(Please enter your name:)ので
nextschoolと入力すると。
のような画面がでてきました。GAE版のHello World!!だろう。
↓
とすんなりといった。名前を聞いてきた(Please enter your name:)ので
nextschoolと入力すると。
のような画面がでてきました。GAE版のHello World!!だろう。
↓
Sending name to the server:
nextschool
Server replies:
Hello, nextschool!
I am running Google App Engine Development/1.2.0.
It looks like you are using:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; GTB6; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618)
ということで、実験してみたい環境は着々と試せているけれど、そういえばひとつもデータマイニングの事について言及していなかったと我に返ってみる。これからは英文も含めて論文や文献の要約を試みよう。
I am running Google App Engine Development/1.2.0.
It looks like you are using:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; GTB6; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618)
ということで、実験してみたい環境は着々と試せているけれど、そういえばひとつもデータマイニングの事について言及していなかったと我に返ってみる。これからは英文も含めて論文や文献の要約を試みよう。
2009年6月7日日曜日
2009年6月4日木曜日
Social Networks Visualizer (SocNetV)
Social Networks Visualizer (SocNetV)はC++とqtで記述されたソーシャルネットワーキングを可視化するオープンソースプログラム。以下のディストリビューションに対応している。
Data Source from http://www.kdnuggets.org/
- Ubuntu
- Debian
- Mandriva
- openSUSE
- Fedora
- Gentoo
- Windows users
- Mac OS
Data Source from http://www.kdnuggets.org/
2009年6月3日水曜日
登録:
投稿 (Atom)