Словарь маркетолога

Robots.txt

простой текстовый файл, который веб-сайт размещает на своём сервере, чтобы сказать поисковым роботам (например,…

← Ко всем терминам словаря

Что такое Robots.txt

Robots.txt — это простой текстовый файл, который веб-сайт размещает на своём сервере, чтобы сказать поисковым роботам (например, Googlebot или YandexBot), какие страницы им можно сканировать, а какие — нет. Это не команда «запретить», а скорее вежливая просьба: «пожалуйста, не заходи сюда». Файл называется именно так — robots.txt — и лежит в корне сайта, например: https://example.com/robots.txt.

Этот файл не влияет на людей — вы всё равно можете открыть любую страницу в браузере. Но поисковые системы, которые «крадут» информацию с сайтов, чтобы показывать её в результатах поиска, внимательно читают robots.txt. Если там написано «не лазить в /admin», роботы обычно это соблюдают — не потому что обязаны, а потому что так принято в интернете.

Зачем нужен Robots.txt

Robots.txt нужен, чтобы управлять тем, как поисковики «обходят» ваш сайт. Без него роботы могут лазить повсюду — даже в служебные папки, черновики или страницы с дублями контента. Это может замедлить работу сайта, перегрузить сервер и даже привести к тому, что в поиске попадут ненужные или конфиденциальные страницы.

Вот почему это полезно:

  • Сохраняет ресурсы сервера: роботы не будут тратить время на сканирование ненужных страниц.
  • Предотвращает индексацию дублей: если у вас есть страницы с одинаковым контентом (например, фильтры в интернет-магазине), вы можете запретить их индексацию, чтобы не размывать позиции в поиске.
  • Скрывает служебные разделы: админка, личные кабинеты, тестовые страницы — всё это можно скрыть от поисковиков.
  • Улучшает качество индексации: роботы сосредоточатся на главных страницах, а не на мусоре.

Как это работает

Robots.txt — это обычный текстовый файл, который состоит из нескольких простых правил. Он работает по принципу «разрешить» или «запретить» для конкретных роботов.

Основные элементы:

  • User-agent — указывает, для какого робота действует правило. Например, User-agent: Googlebot — для Google, User-agent: * — для всех роботов.
  • Disallow — говорит, какие пути (URL) запрещены. Например: Disallow: /admin/.
  • Allow — иногда используется, чтобы разрешить доступ к конкретной подпапке внутри запрещённой. Например: Allow: /admin/public/.
  • Sitemap — ссылка на карту сайта, чтобы роботы быстрее находили важные страницы.

Файл читается сверху вниз. Первое совпадение — решающее. Если у вас есть Disallow: / и потом Allow: /index.html, то Google может проигнорировать Allow — потому что запрет уже сработал. Поэтому порядок важен.

Виды Robots.txt

Robots.txt не имеет строгих «типов», но его правила можно разделить по цели:

  • Базовый блокирующий. Просто запрещает доступ к служебным папкам: /admin/, /wp-admin/, /tmp/. Используется на всех сайтах.
  • Оптимизированный под SEO. Убирает дубли, фильтры, страницы с параметрами (например, ?sort=price). Помогает улучшить качество индексации.
  • Конфиденциальный. Запрещает доступ к личным данным, внутренним документам или тестовым версиям сайта. Часто встречается на корпоративных сайтах.
  • Полный запрет. User-agent: * и Disallow: / — означает «не индексируйте ничего». Используется, например, на сайтах-заглушках или в разработке.

Простой пример

Допустим, вы сделали интернет-магазин с товарами. У вас есть страницы: /products/, /cart/, /admin/login/ и /products?sort=price.

До robots.txt роботы Google лазили по всему: индексировали корзину, админку и 50 разных версий страниц с фильтрами. В поиске появились странные ссылки, сайт тормозил, а позиции упали.

Вы добавили файл robots.txt с правилами:

User-agent: *
Disallow: /cart/
Disallow: /admin/
Disallow: /products?
Sitemap: https://example.com/sitemap.xml

После этого Google перестал индексировать корзину и фильтры. Сайт стал быстрее грузиться, а в поиске появились только настоящие товары. Через месяц позиции выросли на 30%.

Как начать

  1. Создайте файл robots.txt в текстовом редакторе (например, Блокнот или VS Code). Ничего сложного — просто пишите строки, как в примере выше.
  2. Загрузите его в корень вашего сайта — то есть на адрес вашсайт.ру/robots.txt. Если файл не открывается — значит, вы положили его не туда.
  3. Проверьте через Google Search Console или Яндекс.Вебмастер — там есть инструменты, которые покажут, правильно ли файл распознаётся.
  4. Не запрещайте главные страницы — если вы закроете /products/, товары не попадут в поисковик.
  5. Обновляйте файл — когда добавляете новые служебные разделы, не забывайте их включать.

Частые вопросы

Чем Robots.txt отличается от мета-тега noindex?
Robots.txt — это запрет на сканирование. Мета-тег noindex — это запрет на индексацию, но страница всё равно сканируется. То есть robots.txt — «не заходи», а noindex — «зайди, но не добавляй в поиск».

Можно ли обойтись без Robots.txt?
Да, можно. Но тогда поисковики будут сканировать всё подряд — и это может замедлить сайт, перегрузить сервер или вывести в поиске ненужные страницы. Лучше иметь хотя бы базовый файл.

Кому в первую очередь стоит разбираться в Robots.txt?
Веб-мастерам, владельцам интернет-магазинов и тем, кто занимается SEO. Даже если вы не программист — достаточно знать, как создать простой файл и проверить его в Google Search Console.