Baiduが運用するクローラーについて

クローラーについて

クローラーは別名スパイダーとも呼ばれる、インターネットを巡回し、検索エンジンで利用するデータを収集する自動収集型のプログラムです。バイドゥ株式会社(以下、バイドゥ)が運用するクローラーは、インターネット上のウェブページ(HTML)のURLリンクをたどることで情報収集を行い、Baiduのデータベースに登録し、検索サービスに利用します。

現在のBaiduのクローラーのUser-Agent (UA) は下記の通りです。

  • Baiduspider+(+http://www.baidu.jp/spider/)
  • BaiduImagespider(+http://www.baidu.jp/spider/)
  • DoCoMo/2.0 P05A(c100;TB;W24H15) (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)
  • DoCoMo/1.0/D506i/c20/TB/W20H10 (compatible; BaiduMobaider/1.0; +http://www.baidu.jp/spider/)
  • KDDI-CA3A UP.Browser/6.2.0.13.2 (GUI) MMP/2.0 (compatible; BaiduMobaider/1.0;+http://www.baidu.jp/spider/)
  • SoftBank/1.0/912SH/SHJ002/SN001111111111000 Browser/NetFront/3.4 Profile/MIDP-2.0 (compatible; BaiduMobaider/1.0;+http://www.baidu.jp/spider/)

Baiduにおける「ウェブ検索」等の検索結果は、これらクローラーが収集した情報を元に関連クエリ(キーワード)に関連する情報を表示するものです。

Baiduのクローラーはロボット排除基準を遵守しています。ウェブサイトの運営者はrobots.txt を設置するか、サイトページ中HTMLファイル内に<META>タグを記述することで、Baiduのクローラーがウェブサイトの一部もしくは全部へアクセスすることを禁止できます。

具体的なアクセス制御方法、および書式用法例については、ウェブマスターサポートをご参照ください。

モバイル検索用クローラーのアクセス元IPアドレスについて

モバイル検索用のクローラー(BaiduMobaider)につきましては、以下のIPアドレスからアクセスが行われます。

  • IPアドレスの範囲: 119.63.195.0/24(119.63.195.1-119.63.195.254)

動的に生成されるページについて

Baiduのクローラーは動的ページも静的ページも同様にクロールを行います。ただし、ページの構成上リンクが無限に生成されてしまうようなページの場合、クローラがそのリンクをたどり続けてしまう危険性があります。クローラはそうしたタイプのリンクを検知し、サーバに不要な負荷をかけない仕組みを実装していますが、もしBaiduのクローラーが問題を起こしている場合は、お問い合わせページよりご連絡いただければ、早急に対応いたします。

クローラーからのリクエスト数を制限するには

バイドゥではインターネット上に存在する膨大な数のページを巡回し、インデックスを行うために、複数のクローラーを使っています。そのため下記のケースにおいて、ウェブサーバに複数のIPアドレスからのアクセス記録が残る可能性がございます。

  • 複数のクローラーが巡回する際、1台のサーバへのリクエスト数は制限しています。しかし、1台のサーバに複数のIPアドレスが割り当てられている場合、複数のサーバと認識され、リクエスト数が増加する場合がございます。
  • Baiduのクローラーは、一度巡回する際に、各サイトからURLのファイルを1つずつダウンロードします。ただし、クローラーが停止したり、再起動した場合、すでに取得したページを再度巡回し直すため、リクエストが連続してしまうことがございます。

アクセス間隔が短すぎるなどの問題が生じている場合、アクセス間隔の設定等、ロボット排除基準に沿ってアクセス数を制限する対策をとっていただくようお願いいたします。

クローラーが削除したページを巡回し続けるときは

削除したURL のページにアクセスしたときに200番のHTTPステータスコードを返すようにサーバーが設定されている場合、クローラーはページがは削除されたことを認識できず、そのURLにアクセスし続ける可能性がございます。存在しないURLにアクセスしている事をご確認された場合には、ステータスコード 404番を返すようサーバの設定を変更してください。

「検索エンジンスパム」 について

検索エンジンスパムとは、検索キーワードと十分な関連性、インターネット利用者が本来望むべき情報が無いにも関わらず、検索結果に表示されるよう意図的に情報操作をしているページを指します。

バイドゥは下記に示す不正なページへの対策にも取り組み、対応を行っております。

  • ユーザー向けではなく検索エンジン向けのみに作成された、検索エンジンなしには存在し得ないサイト
  • ユーザーにとって有益でないにも関わらず、検索エンジンが有益と誤判断してしまうサイト

検索エンジンによって、スパム行為と判断される例についても、下記に示します。

  • 検索エンジンの検索結果に表示されている内容と利用者が目にするページの内容が異なるページ
  • ウェブページに隠し文字や隠しリンクを埋め込むこと
  • ウェブページにページ内容と関係のないキーワードを検索エンジンでの誤判定を目的に追加すること
  • ユーザーへの利便性向上を目的としない、悪意のある誘導リンクやリダイレクトを設けること
  • ドアウェイページ
  • 検索エンジンへの登録を目的として、機械的なプログラムでコンテンツを大量生成すること
  • 価値のない重複コンテンツが大量にあること
  • 悪質な広告やユーザーへの情報提供を目的としないコードを大量に埋め込むこと

※上記に限らず、スパム行為と判断されることがあります。
※スパムに該当すると判断したサイトにつきましては、インデックスから随時削除しております。

その他補足事項

  • バイドゥでは、オリジナルなコンテンツを持つサイトほど有益で望ましいサイトと判断しており、様々なインターネットリソースからコンテンツを集めて作ったサイト等は、検索結果に表示されない可能性があります。
  • 相互リンクは慎重に設置してください。価値の低いサイトやスパムサイトとの相互リンクが多いサイト等は、検索結果に表示されない可能性があります。
  • 検索結果の品質向上にご協力ください。当社では、あらゆる情報のページ収集を試みます。同一サイト内で、同じ情報を様々な形式(例:印刷用ページ等)で発信する必要がある場合には、収集情報の重複を避ける為、該当ページ内にバイドゥのクローラーをブロックするよう<META>要素の記述、またはrobots.txtの設置をおすすめします。