「robots.txt(ロボッツ・テキスト)の設定って必要なの?」
「なんとなく触るのが怖い…間違ったらどうなるの?」
そんな不安を抱えていませんか?
結論から言うと、robots.txtはWebサイトにおける「通行止め」の標識です。
正しく使えば、検索エンジンのクローラー(巡回ロボット)をコントロールし、サイトの評価を高める強力な武器になります。
しかし、書き方を一行でも間違えると、サイト全体が検索結果から消滅する(インデックスされなくなる)という、恐ろしいことにもなりかねません…。
この記事では、600万UU規模のメディア運用で数々のクロール制御を行ってきた僕が、robots.txtの正しい書き方から、絶対にやってはいけないNG設定、そして「noindex」との決定的な違いまでを、初心者にもわかりやすく解説します。
WordPressで使える「コピペ用テンプレート」も用意したので、設定に自信がない人はぜひ参考にしてください。
robots.txtとは?SEOにおける役割と重要性
robots.txtとは、Webサイトのサーバー上に設置するテキストファイルのことです。
一言でいうと、「クローラーに対する立ち入り禁止命令」を記述するためのファイルです。
Web上には、Googleの検索ロボット(Googlebot)をはじめ、Bingのクローラー、ChatGPTなどのAI学習ボット、SEOツールの分析ボットなど、無数のロボットが巡回しています。
これらのロボットに対し、「このページは見ていいよ」「ここから先は入っちゃダメだよ」と指示を出すのがrobots.txtの役割です。
クローラーへの「通行止め」命令
イメージしてください。あなたのサイトを「お店」だとします。
一般のお客さん(ユーザー)は店内を自由に見られますが、倉庫やスタッフルーム(管理画面など)には入ってほしくないですよね?
そんな時、ドアに貼る「STAFF ONLY(関係者以外立ち入り禁止)」の張り紙。これがrobots.txtです。
ただし、一つ重要な注意点があります。
robots.txtはあくまで「紳士協定(Robots Exclusion Protocol)」です。Googlebotのような「行儀の良いロボット」は指示を守ってくれますが、悪意のあるスクレイピングボットや攻撃者は、この張り紙を無視して侵入してきます。
セキュリティ対策(ハッキング防止)としてrobots.txtを使うのは間違いなので覚えておきましょう。
なぜ設定が必要なのか?(3つの目的)
主に以下の3つの目的で利用されます。
- 不要なページのクロール拒否
WordPressの管理画面(wp-admin)や、テスト環境、会員限定ページなど、検索エンジンに見せる必要がない場所へのアクセスを防ぎます。 - AI学習・ツールへの拒否(最新トレンド)
最近増えているのが、「自分のブログ記事を勝手にAI(ChatGPT等)に学習されたくない」というケースです。robots.txtに記述することで、これらのAIボットのアクセスを拒否できます。 - クロールバジェットの最適化
大規模サイト(数万ページ以上)の場合、クローラーが巡回できるリソース(体力)には限りがあります。どうでもいいページへの巡回をブロックし、本当に重要な記事にクローラーを集中させることで、SEO評価を効率よく高めることができます。
※個人のブログ規模であれば、ここはあまり気にしなくて大丈夫です。
【最重要】robots.txtとnoindexの違い
ここが最も多くの人が混乱し、そして事故を起こすポイントです。
「検索結果に出したくない」という目的は同じですが、その仕組みは全く異なります。
| 項目 | robots.txt (Disallow) | noindexタグ |
|---|---|---|
| イメージ | 「門前払い」 | 「入室後の登録拒否」 |
| クローラーの動き | 中身を見ずに帰る | 中身を見てから「登録しない」とメモする |
| 用途 | クロール自体をさせたくない時 (サーバー負荷軽減など) | 検索結果から消したい時 (低品質ページなど) |
絶対にやってはいけない「併用ミス」
よくある間違いが、「検索結果から消したいページに noindex を入れた上で、さらに robots.txt でブロックしてしまう」ことです。
これをやるとどうなるか?
クローラーはrobots.txtの「立ち入り禁止」を見て、そのページの中に入れません。つまり、ページの中に書かれている「noindex(登録しないで)」という指示を読むことができないのです。
結果として、いつまで経っても検索結果からページが消えない(インデックスが削除されない)というトラブルが発生します。
【注意点】ページを確実に検索結果から消したいなら、robots.txtでブロックしてはいけません。「noindex」タグだけを使いましょう。
【コピペOK】robots.txtの正しい書き方と設置場所
ここからは実践編です。robots.txtはメモ帳などのテキストエディタで作れます。
ファイル名は必ず robots.txt (すべて小文字)にしてください。
基本構文
User-agent: [ボットの名前]
Disallow: [ブロックしたいパス]
Allow: [許可したいパス]
Sitemap: [サイトマップのURL]
User-agent: どのロボットへの命令か?(*なら全員、GooglebotならGoogleのみ)Disallow: 立ち入り禁止にするディレクトリやファイル。Allow: Disallowした中の一部を特例で許可する場合に使用。
ケース別・推奨記述テンプレート
ケースA:一般的なブログ(全てのクローラーを許可)
特にブロックしたいものがなければ、これでOKです。
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
ケースB:WordPressでの推奨設定
管理画面などをブロックしつつ、重要なファイルは許可する安全な設定です。
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml
ケースC:【トレンド】AI学習を拒否したい場合
ChatGPT(GPTBot)やClaudeなどにコンテンツを使われたくない場合は、以下を追加します。
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
設置場所
作成した robots.txt ファイルは、FTPソフトなどを使ってサーバーのルートディレクトリ(一番上の階層)にアップロードします。
正しく設置できていれば、ブラウザで以下のURLにアクセスすると中身が表示されます。https://あなたのドメイン/robots.txt
設定後の必須作業!Googleサーチコンソールでの確認方法
設定を変えたら、必ずミスがないかテストしましょう。Googleサーチコンソールには、設定内容を検証できるツールがあります(※現在は旧バージョンのツールとして提供されています)。
- Googleアカウントにログインした状態で、「robots.txt テスター」のページへアクセスします。
- 自分のプロパティ(サイト)を選択します。
- エディタ画面が表示されるので、下部のURL欄に「ブロックされているか確認したいURL(例:管理画面のURL)」を入力し、「テスト」ボタンを押します。
- 正しく設定されていれば「ブロック済み」と赤く表示されます。逆に、見てほしい記事のURLを入力して「許可済み」(緑色)になればOKです。
まとめ:robots.txtは「守り」のSEO施策
robots.txtは、攻めのSEOというよりは、サイトの健康状態を守るための「守りのSEO」です。
- 基本は「いじらない」でもOK: 小規模なブログならデフォルトのままでも大きな問題はありません。
- 触るなら慎重に:
Disallow: /(全ブロック)などの記述ミスには細心の注意を払いましょう。 - noindexとの違いを理解する: インデックス削除が目的ならrobots.txtは使いません。
まずは自分のサイトのURLの末尾に /robots.txt をつけてアクセスし、現状どんな設定になっているか確認することから始めてみてください。
さらに詳しい「テクニカルSEO」の全体像を知りたい方は、以下の記事もあわせてご覧ください。

