2007年7月7日土曜日

robots.txtで検索エンジンを操作しよう

今日は、7月7日の七夕と言う事でrobots.txt(ロボットテキスト)について書いてみようと思います。
(全く関係ないです)

robots.txtはホームページを巡回してくる検索エンジンロボットに対する物で
主にクロールして欲しくないページやディレクトリを指定するのに使用します。

YahooやGoogleに思うようにインデックスされないサイトで、サイト内のなんらかのエラーが生じて
インデックスを保留されているケースもあります。
robots.txtをルートディレクトリに置いて、不要なページを巡回しない様にすると
不思議とインデックス数が増えていく事もあります。

作成方法はいたって簡単です。

メモ帳を開いて

User-agent: *
Disallow: /abc/
Disallow: /deg.html

この様な形で記載してあげれば良いだけです。
この場合ですと、
abcのディレクトリはインデックスしない
deg.htmlファイルをインデックスしない
と言う感じになります。

・User-agent:の後に半角スペース
・Disallow:の後に半角スペース
・最終行は空白にしておく
・メモ帳のままファイル名をrobots.txtで保存してサーバーにアップする

これだけです。

Googleのウェブマスターツールにrobots.txt検出の項がありますので、
そこでちゃんと伝わっているのかを確認する事が出来ます。

robots.txtを設置していないのにrobots.txt にアクセスできませんと言うエラーが出ている場合は
インデックスを保留されてしまっているので、robots.txtを置いてあげると良いでしょう。

参考リンク

0 件のコメント: