単語の頻度統計を用いた文章の類似性の定量化―部分的類似性の考慮―

深谷 亮  山村 毅  工藤 博章  松本 哲也  竹内 義則  大西 昇  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.2   pp.661-672
発行日: 2004/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
文書処理,  類似性,  概念辞書,  単語の頻度,  

本文: PDF(1.2MB)>>
論文を購入




あらまし: 
本研究では,他人の文章を真似して作成された文章を発見するための文章間類似度の計算法を提案する.真似した文章の多くは,もとの文章に含まれる文と類似した文から構成され,類義語・同義語へ言い換えることなどにより表層的な表現を変化させる.そこで,本手法では各文章を構成される文単位で照合し,表層的な表現の変化に対応するため単語の頻度と概念辞書を用いる.本手法による類似度により,同一テーマで記述された文章と真似して書かれた文章とを明確に区別することができることを示す.