ウェブマスターサポート

Baidu(バイドゥ)について > ウェブマスターサポート > アクセス制御方法について

アクセス制御方法について

robots.txtファイルのフォーマット

「robots.txt」 ファイルには、1つまたは複数のレコードがあります。このレコードは空行によって分けられています。
( cr 、cr/nl 、nl が終了フラグとなります)

レコードのフォーマットは下記のとおりです。
"<field>:<optionalspace><value><optionalspace>"

"#" を利用してコメントアウトにすることが可能です。レコードは、1行または複数行の User-Agent で始まり、後ろは複数のdisallow行、および1行のcrawl-delayとなります。

詳細は下記の通りです。

User-Agent

このフィールドは robots (または spider ) の名前を表記します。「robots.txt」に、複数の User-Agent レコードがあると、複数のrobots が制限されているということです。そのため、User-Agent レコードが最低1行必須となります。もし、このフィールドの値が*に設定されていた場合、すべての robots に対して有効となります。
" robots.txt "に、" User-Agent:* "のようなレコードを複数行にして書くことはできません。
なお、Baiduの User-Agent名については、こちらをご参照ください。

disallow

このフィールドはアクセスを禁止する URL を表記します。このURLは完全なURLでも、URLの一部でも可能です。すべてのdisallowで始まる URL が robotsにアクセスされなくなります。例えば、" disallow:/help "は、/help.htmlおよび /help/index.htmlに対し、アクセスを禁止することができます。

「disallow:/help/」は、/help.htmlにアクセスができる一方、/help/index.htmlにアクセスできません。disallowレコードのいずれかが空の場合、サイトの内容全部にアクセスすることが可能です。

「robots.txt」ファイルに、disallowレコードが最低1行必須となります。もし「robots.txt」の内容が空白の場合、すべての検索エンジンの robotsに対し、アクセスを許可します。

crawl-delay

もし spiderのアクセスが多くなりすぎた場合、robots.txtにcrawl-delayを利用して、spiderのアクセス頻度を制限できます。crawl-delay は、spiderの連続2回のアクセスの最短の間隔を表記します。例えば、"crawl-delay:5"と表記した際は、サイトに対しアクセス最短の間隔が5秒となります。