つれづれなる記録: Natural Language Processing

2009年7月14日火曜日

Natural Language Processing

自然言語処理の基礎技術
・形態素解析
・・形態素解析（英語）
形態素とは語の不定形、語より小さい単位で意味を持つ最小の単位。文章の中で文法に従って形が定まっている語を”定形”と呼ぶ。文章はその語から成り立っている。語を、それを構成する形態素に分離する処理が形態素解析である。

・・形態素解析（日本語）
日本語は単語ではなく、文節が連なって文を構成しているので文節の形態素解析という。
日本語は膠着語という文法的分類に入れられる。
■コーパスからの語彙知識の獲得
1990年代までは、辞書の定義文や、人手による構文解析済みのコーパスが用いられていた。2000年代以降は言語取得の範囲拡大をし、新聞記事、Webから収集した言語テキストが用いられるようになった。

■共起知識の獲得
コーパス中の数単語程度の近さで共起する2つの単語の間の相互情報量を計算し、統計的な観点から意味のある言語現象を検出する。

■単語間の類似度の測定
「共起知識の獲得」の方法を発展させて、コーパスから主語/動詞/目的語の3項の組の類似性を測定し、相互情報量を類似度として計算した結果で、品詞の同義語を抽出する。

■推論規則・言い換えの獲得
同一の名詞を共起しやすい表現の類似度が高い多用な表現の共起の強さを相互情報量によって測定する。

■翻訳知識の獲得
相互情報量を用いた共起測定法において対訳テキストを情報源として二言語間の出現位置の相関が強いほど、その表現の組は対訳関係が強い可能性が高いといえる。

■未解析コーパス・Webからの獲得
WebのHTML言語からの箇条書きや表形式において、上位語、類義語、属性語が現れやすい。ヒューリスティックを利用して関連語を獲得する手法が提案されている。

■コーパスへの情報付与の自動化
nグラムモデルを用いた日本語形態素解析はある単語の生起のモデル化において、直前のn-1個の単語のみを考慮する培グラムモデルや直前の二単語のみを考慮するトライグラムモデルなどがある。

■意味的曖昧性解消
同意異義語の判別、訳語選択などの処理は分類器を用いて多義性をもつ語の前の文字列、形態素、係り受け関係にある形態素、同一文内の形態素、同一文書内の形態素などの情報が属性（素性）として用いられる。

■仮名漢字変換
仮名漢字変換は文節単位で行う。文節を形態素解析することにより文節内の単語の並び方が形態論的に正しい結果だけを用いることができる。またヒューリスティックな手法を適用することで多数の変換候補に対応できる。

■同音語
仮名漢字変換で最も大きな問題だが形態素解析を用いることで適切なものを区別することができ、自動選択することができる。

Data source from 自然言語処理(オーム社)