
Baiduでは、自然言語処理に興味を持たれていたり、学んでいたり、研究されている方や、おもしろいものを作ってみたいエンジニアの方に向けて、研究や非商用のサービス開発などの目的に利用いただけるコーパスを公開しています。
今後も様々なコーパスの公開を予定(不定期)していますので、どうぞご期待ください○┓ペコリ
<ご注意>
Baidu コーパスの利用にあたっては、必ず以下の利用条件をお読みください。
Baidu ブログ・掲示板時間軸コーパス
2010年8月公開
Baiduのクロールしたウェブデータから、掲示板の書き込みおよびブログの本文を、書き込まれた正確な時間とともに抽出し時系列に並べたデータを元にして作成したコーパスです。
2000年1月~2010年7月の期間に対して、各1ヶ月ごとにスライスし、Nグラム(1グラム~3グラム)の統計を計算しています。
- Baidu ブログ・掲示板時間軸コーパス(2000年):1~3グラム(987KB)
- Baidu ブログ・掲示板時間軸コーパス(2001年):1~3グラム(3,145KB)
- Baidu ブログ・掲示板時間軸コーパス(2002年):1~3グラム(5,862KB)
- Baidu ブログ・掲示板時間軸コーパス(2003年):1~3グラム(7,092KB)
- Baidu ブログ・掲示板時間軸コーパス(2004年):1~3グラム(9,333KB)
- Baidu ブログ・掲示板時間軸コーパス(2005年):1~3グラム(16,234KB)
- Baidu ブログ・掲示板時間軸コーパス(2006年):1~3グラム(13,003KB)
- Baidu ブログ・掲示板時間軸コーパス(2007年):1~3グラム(16,524KB)
- Baidu ブログ・掲示板時間軸コーパス(2008年):1~3グラム(13,912KB)
- Baidu ブログ・掲示板時間軸コーパス(2009年):1~3グラム(13,792KB)
- Baidu ブログ・掲示板時間軸コーパス(2010年):1~3グラム(11,122KB)
- 利用サンプルスクリプト.py (1.8KB)
Baidu 絵文字入りモバイルウェブコーパス
2010年6月公開
一般に公開されているAPIやプライベートなAPI、あるいは以下のBaidu絵文字入りモバイルウェブコーパス(Baiduがウェブから抽出した絵文字を含む日本語データから作成したNグラムデータ)です。
なお、本コーパスは、2010年7月に開催した「
Baidu.jp不自然言語処理コンテスト」の発表を機に公開されました。