Baidu絵文字入りモバイルウェブコーパス Copyright Baidu Japan Inc. All Rights Reserved * 概要 「Baidu絵文字入りモバイルウェブコーパス」は、バイドゥ株式会社がモバイル検索に収集した Web データを元に作成した日本語形態素 n-gram の統計情報です。Web ページに含まれる絵文字の情報も形態素として含めている点が特徴です。 * 利用条件 別途利用条件 (Baidu_Terms_and_condition_Corpus.pdf) を参照ください。 * 出典の際の表記 日本語: バイドゥ株式会社「Baidu 絵文字入りモバイルウェブコーパス」 英 語: "Baidu Mobile Web Corpus with Emoji", by Baidu Japan Inc. * 対象 バイドゥモバイル検索向けに2010年6月までにクロールした Web ページからランダムサンプリングしたもののうち、絵文字の含まれるページのみを使用しています。 * データの詳細 ** キャリア判別 ある Webページが、どのキャリア (docomo, au, SoftBank) 向けかを、絵文字データの表現方法、およびコード範囲より判定しています。なお、クロールの都合により、キャリアによってページ数に大幅な偏りがある点ご了承ください。 ** 文字コード・絵文字変換 文字コードは全てUTF8に変換してあります。 絵文字は、全キャリア共通の の形式の形態素に正規化してあります。ここで、 "XXX" は emoji4unicode の16進数表現の内部 ID です。(例:  は「ビール」の絵文字に対応します。) 参考: http://www.unicode.org/~scherer/emoji4unicode/snapshot/full.html ** テキスト抽出 以下の clean_html() の実装を使用し、HTML からテキストを抽出しています。 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.util-pysrc.html#HTMLCleaner.clean_text なお、ここでパースに失敗した mal-formed な HTML は n-gram のカウントからページごと除外しています。 ** 正規化 英数字・記号は半角に正規化しています。具体的には、日本語code point (UCS2) の UFF00-UFF5F を U0020-U007Fにシフトしています。また、カタカナは全角に正規化しています。 その他の文字については、正規化を行っていません。 ** 文検出

、タグ、および、".", "!", "?", "。"の1回以上の繰り返しを文末として文検出しています。 ** 文フィルタリング 以下の条件に1つでも該当する文は抽出対象から除外しています。 1. 5文字以下もしくは1024文字以上 (Byte数ではなく、Unicode文字数) 2. ひらがなが全体の5%未満 3. 日本語のcode point(下記参照)の割合が70%未満 U3040 .. U30FF U31F0 .. U31FF U3400 .. U34BF U4E00 .. U9FFF UF900 .. UFAFF なお、絵文字はひらがな1文字分と同等にカウントしてます。 ** 形態素解析 抽出された文を、mecab-0.98 および mecab-ipadic-2.7.0-20070801 を用いて形態素に分割しています。ただし、絵文字トークン は1形態素となるように分割しています。文頭、文末は , トークンによって表示しています。 ** 頻度のカットオフ a. 基本形態素カットオフ 基本形態素とは、コーパス中に全キャリア通じて 20 回以上出現した形態素のことです。頻度が 20 未満の形態素は未知語トークン に置換されています。 b. n-gram カットオフ 最終的に、出現頻度が n 回以上の n-gram のみを出力しています。ここで、頻度の閾値 n は、docomo に対しては n = 10, au に対しては n = 5, softbank に対しては n = 3 です。 * データ形式 ファイルは、 baidu_mobile_corpus_1gm.tar.bz2 baidu_mobile_corpus_2gm.tar.bz2 baidu_mobile_corpus_3gm.tar.bz2 baidu_mobile_corpus_4gm.tar.bz2 baidu_mobile_corpus_5gm.tar.bz2 の5つから構成され、それぞれ 1-gram から 5-gram に対応しています。各ファイルには、Ngm-C.txt が含まれており、ここで、N はn-gram の次数、C はキャリア(d: docomo, a: au, s: softbank) です。 各ファイルはテキストファイルで、1行に1つのn-gramが以下のフォーマットで保存されています。 WORD_1 WORD_2 ... WORD_N COUNT 異なり n-gram 数は、以下の通りです。 異なり 1-gram 数: 116,283 (docomo) 45,174 (au) 5,084 (softbank) 異なり 2-gram 数: 1,663,344 (docomo) 252,911 (au) 8,648 (softbank) 異なり 3-gram 数: 2,617,067 (docomo) 252,371 (au) 6,047 (softbank) 異なり 4-gram 数: 2,123,263 (docomo) 158,151 (au) 4,453 (softbank) 異なり 5-gram 数: 1,244,631 (docomo) 99,999 (au) 3,652 (softbank)