帰納的学習を用いたタグなしコーパスからの統語規則の自動獲得手法

渋木 英潔  荒木 健治  栃内 香次  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.10   pp.2003-2016
発行日: 2000/10/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
自然言語処理,  帰納的学習,  文脈自由文法,  形態素解析,  構文解析,  

本文: PDF(745.1KB)>>
論文を購入




あらまし: 
本論文では,帰納的学習を用いて,タグなしコーパスから統語上の解析に必要な規則(統語規則)を自動的に獲得する手法について述べる.統語規則を事前に人手で与えることはばく大な労力が必要である.また,人手によって作成された統語規則は静的(固定的)なものになり,現実の文のような様々な言語現象に対処することができない.そこで,多くの文を処理できる統語規則は正しいという制約のもと,類推と統計的基準に基づいた帰納的学習を用いて統語規則を動的に獲得することにより,対象に動的に適応する手法を開発した.本手法は,以下の三つの点で従来手法よりも頑健である.第1に,分かち書きも,いかなるタグも付けられていない文から統語規則を獲得できる.第2に,語彙,品詞,文法はすべて空の状態から開始できる.事前に備えているのは,文字という言語単位の存在と,統語規則などの表現形式と,統語規則の運用・学習方法だけである.第3に,単一の機構で,人間の言語獲得過程におけるすべての時期の文(1語文から3語文以上まで)を処理できる.本手法を実装したシステムを作成し,統語規則のない状態から,外国人のための日本語学習用テキストを30回繰り返して入力した結果,獲得された統語規則を用いて85.3%の解析成功率が得られた.また,解析が成功した結果の42.8%が正解であることを確認した.