Web文書の符号系及び使用言語の自動識別

前田 亮  関 慶妍  吉川 正俊  植村 俊亮  

誌名
電子情報通信学会論文誌 D   Vol.J84-D2   No.1   pp.150-158
発行日: 2001/01/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
WWW,  文字符号,  言語識別,  符号系識別,  

本文: PDF(371.5KB)
>>論文を購入


あらまし: 
近年WWWでは,様々な言語で文書が提供されるようになってきており,用いられる符号系も様々である.しかしながら,Web文書には使用言語や符号系についての情報が付与されていない場合が多い.このため,ブラウザにおける文字化けの原因になったり,検索エンジンにおける索引付けなどの際に問題が生じる.本論文では,単純な統計的手法とその分析により,Web文書の符号系及び使用言語を自動的に識別する手法を提案する.この自動識別手法の有効性を検証するために,主にアジア系とヨーロッパ系の12言語10符号系からなるWeb文書を対象とした実験を行い,平均98%以上の正解率を得た.