「robots.txt(ロボッツ・テキスト)の設定って必要なの?」
「なんとなく触るのが怖い…間違ったらどうなるの?」
そんな不安を抱えていませんか?
結論から言うと、robots.txtはWebサイトにおける「通行止め」の標識です。
正しく使えば、検索エンジンのクローラー(巡回ロボット)をコントロールし、サイトの評価を高める強力な武器になります。
しかし、書き方を一行でも間違えると、サイト全体が検索結果から消滅する(インデックスされなくなる)という、恐ろしいことにもなりかねません…。
この記事では、600万UU規模のメディア運用に関わってきた僕が、robots.txtの正しい書き方から、絶対にやってはいけないNG設定、「noindex」との違い、そして最近相談が増えている「AIに学習されたくない」への答えまでを、初心者にもわかりやすく解説します。先に正直に言っておくと、robots.txtは「ほとんどの人が、ほとんど触らなくていい」ファイルです。それでも、知らずに事故ると怖いポイントだけは押さえておきましょう。
WordPressで使える「コピペ用テンプレート」も用意したので、設定に自信がない人はぜひ参考にしてください。
robots.txtとは?SEOにおける役割と重要性
robots.txtとは、Webサイトのサーバー上に設置するテキストファイルのことです。
一言でいうと、「クローラーに対する立ち入り禁止命令」を記述するためのファイルです。
Web上には、Googleの検索ロボット(Googlebot)をはじめ、Bingのクローラー、ChatGPTなどのAI学習ボット、SEOツールの分析ボットなど、無数のロボットが巡回しています。
これらのロボットに対し、「このページは見ていいよ」「ここから先は入っちゃダメだよ」と指示を出すのがrobots.txtの役割です。
クローラーへの案内人がrobots.txt
イメージしてください。あなたのサイトを「お店」だとします。robots.txtは、その入り口に立つ「案内係」のような存在です。やってきたロボットに対して、「こちらのフロアはご自由にどうぞ(Allow)」「ここから先は関係者のみです(Disallow)」「商品の一覧はこちらです(Sitemap)」と案内する役割を持っています。
よく「立ち入り禁止の張り紙」と説明されますが、それはrobots.txtの機能の一部(Disallow)にすぎません。本当は、許可も案内も含めて、ロボットの動きを案内する「受付係」だとイメージすると、全体像がつかみやすくなります。
ただし、一つ重要な注意点があります。
robots.txtはあくまで「紳士協定(Robots Exclusion Protocol)」です。Googlebotのような「行儀の良いロボット」は指示を守ってくれますが、悪意のあるスクレイピングボットや攻撃者は、この張り紙を無視して侵入してきます。
セキュリティ対策(ハッキング防止)としてrobots.txtを使うのは間違いなので覚えておきましょう。
なぜ設定が必要なのか?(3つの目的)
主に以下の3つの目的で利用されます。
- 不要なページのクロール拒否
WordPressの管理画面(wp-admin)や、テスト環境、会員限定ページなど、検索エンジンに見せる必要がない場所へのアクセスを防ぎます。 - AI学習・ツールへの拒否(最新トレンド)
最近増えているのが、「自分のブログ記事を勝手にAI(ChatGPT等)に学習されたくない」というケースです。robots.txtに記述することで、これらのAIボットのアクセスを拒否できます。 - クロールバジェットの最適化
大規模サイト(数万ページ以上)の場合、クローラーが巡回できるリソース(体力)には限りがあります。どうでもいいページへの巡回をブロックし、本当に重要な記事にクローラーを集中させることで、SEO評価を効率よく高めることができます。
※個人のブログ規模であれば、ここはあまり気にしなくて大丈夫です。
【最重要】robots.txtとnoindexの違い
ここが最も多くの人が混乱し、そして事故を起こすポイントです。
「検索結果に出したくない」という目的は同じですが、その仕組みは全く異なります。
| 項目 | robots.txt (Disallow) | noindexタグ |
|---|---|---|
| イメージ | 「門前払い」 | 「入室後の登録拒否」 |
| クローラーの動き | 中身を見ずに帰る | 中身を見てから「登録しない」とメモする |
| 用途 | クロール自体をさせたくない時 (サーバー負荷軽減など) | 検索結果から消したい時 (低品質ページなど) |
絶対にやってはいけない「併用ミス」
よくある間違いが、「検索結果から消したいページに noindex を入れた上で、さらに robots.txt でブロックしてしまう」ことです。
これをやるとどうなるか?
クローラーはrobots.txtの「立ち入り禁止」を見て、そのページの中に入れません。つまり、ページの中に書かれている「noindex(登録しないで)」という指示を読むことができないのです。
結果として、いつまで経っても検索結果からページが消えない(インデックスが削除されない)というトラブルが発生します。
【注意点】ページを確実に検索結果から消したいなら、robots.txtでブロックしてはいけません。「noindex」タグだけを使いましょう。
【コピペOK】robots.txtの正しい書き方と設置場所
ここからは実践編です。robots.txtはメモ帳などのテキストエディタで作れます。
ファイル名は必ず robots.txt (すべて小文字)にしてください。
基本構文
User-agent: [ボットの名前]
Disallow: [ブロックしたいパス]
Allow: [許可したいパス]
Sitemap: [サイトマップのURL]
User-agent: どのロボットへの命令か?(*なら全員、GooglebotならGoogleのみ)Disallow: 立ち入り禁止にするディレクトリやファイル。Allow: Disallowした中の一部を特例で許可する場合に使用。
ケース別・推奨記述テンプレート
ケースA:一般的なブログ(全てのクローラーを許可)
特にブロックしたいものがなければ、これでOKです。
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
ケースB:WordPressでの推奨設定
管理画面などをブロックしつつ、重要なファイルは許可する安全な設定です。
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml
ケースC:AIに学習されたくない場合
AI(ChatGPTやClaudeなど)に学習されたくない場合も、robots.txtで制御できます。ただ、これは「ブロックすべきか、むしろ引用されたいか」で判断が分かれるポイントなので、次の「AI時代のrobots.txt」の章でくわしく解説します。
設置場所
作成した robots.txt ファイルは、FTPソフトなどを使ってサーバーのルートディレクトリ(一番上の階層)にアップロードします。
正しく設置できていれば、ブラウザで以下のURLにアクセスすると中身が表示されます。https://あなたのドメイン/robots.txt
AIに学習されたくない? それとも引用されたい? AI時代のrobots.txt
robots.txtで最近いちばん相談が増えているのが、AIへの対応です。「自分のサイトを、AIに勝手に学習されたくない」「逆に、ChatGPTやGeminiに引用されたい」。こうした悩みに、robots.txtは答えられます。
AIのクローラーには「学習用」と「検索用」の2種類がある
まず知っておきたいのが、AIのクローラーには大きく2種類ある、ということです。
- 学習用クローラー: AIモデルの訓練(トレーニング)のためにコンテンツを集めます。例:GPTBot(OpenAI)、Google-Extended(Google)、CCBot(Common Crawl)、ClaudeBot(Anthropic)など
- 検索用クローラー: ChatGPTやPerplexityなどのAI検索が、回答に引用・出典として表示するために集めます。例:OAI-SearchBot(OpenAI)、Claude-SearchBot(Anthropic)、PerplexityBotなど
ポイントは、この2つを別々に制御できることです。OpenAIも、学習用のGPTBotと検索用のOAI-SearchBotを、はっきり別のクローラーとして扱っています(OpenAI公式)。つまり「学習はされたくないけど、AI検索には載りたい」という選択ができます。
なお、2026年に入ってGrokやDeepSeekなど、新しいAIのクローラーも次々に増えています。robots.txtに書くべき相手は、もうGoogleだけではない時代です。
ブロックすべき? それとも許可すべき?
ここが、多くの人が悩むポイントです。判断軸はシンプルにできます。
「守るべき独自資産・収益があるか」「認知を広げたいフェーズか」で決まります。大きな収益や独自データを持つメディアは「学習を拒否して守る」、認知を広げたい個人・新興サイトは「引用されたいから許可する」が基本線です。
ブロックしたい人の主な理由は、こうです。
- 労力をかけて作ったコンテンツが、無断で学習され、似たものを生成されるのを防ぎたい(権利の問題)
- 独自情報をAIに吸収され、サイトに人が来なくなる(流入・収益の減少)のを避けたい
実際、海外の調査では、上位ニュースサイトの約8割が、AIの学習用ボットを1つ以上ブロックしているという報告もあります。守りに動くサイトは、確実に増えています。
一方で、許可したい人の理由はこうです。
- AI検索(ChatGPTやGeminiの回答)に引用され、新しい露出を得たい
- 認知を広げたい
そして、その中間として「学習用はブロック、検索用は許可」という折衷案もあります。これなら、AI検索には載りつつ、自分のコンテンツがAIの訓練データには使われません。
正直に言うと、僕は基本ブロックしていない
僕自身のスタンスを正直に言うと、AIクローラーは基本的にブロックしていません。理由はシンプルで、AIに引用・言及されたいからです。
正直なところ、torif(このブログ)はまだ、ほとんどAIに引用されていません。それでもブロックしないのは、「認知を広げたい」という今の自分のフェーズに合った判断だからです。もし将来、torifが大きな収益源になったり、ここにしかない独自データを抱えたりしたら、判断は変わるかもしれません。
立場が変われば、答えも変わります。だから「みんなブロックすべき」でも「みんな許可すべき」でもなく、自分がどちらの立場かで決めるのが正解です。
AIの学習を拒否する書き方
「学習はされたくない」と決めたら、robots.txtにこう書きます。代表的な学習用クローラーをブロックする例です。
# AIの学習用クローラーをブロックする例
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
検索用クローラー(OAI-SearchBotなど)を書かなければ、そちらは許可されたまま。つまり「学習は拒否、AI検索には引用OK」という設定になります。
ただし注意点があります。robots.txtはあくまで「紳士協定」です。行儀の良いクローラーは従いますが、すべてのAIボットが従う保証はありません。確実に守りたい場合は、サーバー側でのアクセス制限など、別の手段も合わせて検討が必要です。
robots.txtは、いつ更新すべき? 現状の確認方法
ここまでAI対応の話をしてきましたが、最後に「そもそも、自分はrobots.txtを触る必要があるのか?」という根本の話をします。
基本は「触らなくていい」
先に結論を言うと、多くの個人ブログや記事型のサイトは、robots.txtをデフォルトのまま放置していて問題ありません。
正直に言うと、僕が以前関わっていた600万UU規模のメディア(就活ノウハウの記事型メディア)でも、robots.txtはほとんど触りませんでした。記事を読んでもらうことが目的のサイトでは、検索エンジンにもAIにも、基本的には全部見てもらった方が都合がいいからです。
「robots.txtを設定しないとSEOで不利になるのでは?」と不安になる人もいますが、その心配はほぼ不要です。
でも、こんなときは触る必要がある
一方で、次のようなケースでは、robots.txtを触る意味があります。
- 検索エンジンに見せたくないエリアができたとき: 会員限定ページ、テスト環境、自動生成された重複ページなど
- 大規模サイトでクロールバジェットを最適化したいとき: 数万ページ以上のサイトで、重要なページに優先的にクロールを向けたい場合
- AIクローラーを制御したくなったとき: 前の章で解説した、学習拒否などの設定
- サイトをリニューアルして、URL構造が大きく変わったとき
逆に言うと、これらに当てはまらないなら、無理に触る必要はありません。
自分のサイトのrobots.txtを確認する方法
「今、自分のサイトのrobots.txtはどうなっているんだろう?」と思ったら、確認はかんたんです。
ブラウザのアドレスバーに、https://あなたのドメイン/robots.txt と入力してアクセスするだけ。今の設定がそのまま表示されます。
なお、WordPressの場合は、実際のファイルがなくても「仮想robots.txt」が自動で生成されていることが多いです。アクセスすると何か表示されるのは、そのためです。編集したい場合は、SEO系のプラグイン(All in One SEOなど)やテーマの機能から行うのが安全です。
設定後の必須作業!Googleサーチコンソールでの確認方法
設定を変えたら、必ずミスがないかテストしましょう。Googleサーチコンソールには、設定内容を検証できるツールがあります(※現在は旧バージョンのツールとして提供されています)。
- Googleアカウントにログインした状態で、「robots.txt テスター」のページへアクセスします。
- 自分のプロパティ(サイト)を選択します。
- エディタ画面が表示されるので、下部のURL欄に「ブロックされているか確認したいURL(例:管理画面のURL)」を入力し、「テスト」ボタンを押します。
- 正しく設定されていれば「ブロック済み」と赤く表示されます。逆に、見てほしい記事のURLを入力して「許可済み」(緑色)になればOKです。
robots.txtに関するよくある質問(FAQ)
- robots.txtは必ず設定しないとダメ?
-
いいえ。多くの個人ブログや記事型サイトは、デフォルトのままで問題ありません。「見せたくないエリアがある」「AIを制御したい」など、明確な目的があるときだけ設定すれば十分です。
- robots.txtでブロックすれば、検索結果から消える?
-
消えません。robots.txtは「クロールを止める」もので、「検索結果から消す」ものではありません。検索結果から消したいページには、noindexを使います。むしろrobots.txtでブロックすると、noindexが読まれず、いつまでも消えなくなることがあるので注意が必要です。
- AIに学習されないようにするには?
-
robots.txtで、GPTBotやGoogle-Extended、ClaudeBotなどの学習用クローラーをDisallowで指定します。ただし、自分が「守る側」か「広めたい側」かで判断は変わります(AI時代のrobots.txtの章を参照)。
- robots.txtを編集したら、すぐ反映される?
-
即時ではありません。クローラーが次にサイトへ来たタイミングで反映されます。急ぐ場合は、Googleサーチコンソールから再クロールをリクエストできます。
- WordPressのrobots.txtはどこにある?
-
多くの場合、実ファイルではなく「仮想ファイル」として自動生成されています。編集はSEO系プラグインやテーマの機能から行えます。
まとめ:robots.txtは「守り」のSEO施策
robots.txtは、攻めのSEOというよりは、サイトの健康状態を守るための「守りのSEO」です。
- 基本は「いじらない」でもOK: 小規模なブログならデフォルトのままでも大きな問題はありません。
- 触るなら慎重に:
Disallow: /(全ブロック)などの記述ミスには細心の注意を払いましょう。 - noindexとの違いを理解する: インデックス削除が目的ならrobots.txtは使いません。
まずは自分のサイトのURLの末尾に /robots.txt をつけてアクセスし、現状どんな設定になっているか確認することから始めてみてください。
さらに詳しい「テクニカルSEO」の全体像を知りたい方は、以下の記事もあわせてご覧ください。
そして今は、「AIに学習されたくないか、それともAIに引用されたいか」という新しい判断も加わりました。ただ、それも含めて「自分のサイトに本当に必要か?」と立ち止まって考えれば、多くの人にとっての答えは「基本は、触らなくていい」のままだと、僕は考えています。

