Словарь маркетолога
Robots.txt
простой текстовый файл, который веб-сайт размещает на своём сервере, чтобы сказать поисковым роботам (например,…
← Ко всем терминам словаряЧто такое Robots.txt
Robots.txt — это простой текстовый файл, который веб-сайт размещает на своём сервере, чтобы сказать поисковым роботам (например, Googlebot или YandexBot), какие страницы им можно сканировать, а какие — нет. Это не команда «запретить», а скорее вежливая просьба: «пожалуйста, не заходи сюда». Файл называется именно так — robots.txt — и лежит в корне сайта, например: https://example.com/robots.txt.
Этот файл не влияет на людей — вы всё равно можете открыть любую страницу в браузере. Но поисковые системы, которые «крадут» информацию с сайтов, чтобы показывать её в результатах поиска, внимательно читают robots.txt. Если там написано «не лазить в /admin», роботы обычно это соблюдают — не потому что обязаны, а потому что так принято в интернете.
Зачем нужен Robots.txt
Robots.txt нужен, чтобы управлять тем, как поисковики «обходят» ваш сайт. Без него роботы могут лазить повсюду — даже в служебные папки, черновики или страницы с дублями контента. Это может замедлить работу сайта, перегрузить сервер и даже привести к тому, что в поиске попадут ненужные или конфиденциальные страницы.
Вот почему это полезно:
- Сохраняет ресурсы сервера: роботы не будут тратить время на сканирование ненужных страниц.
- Предотвращает индексацию дублей: если у вас есть страницы с одинаковым контентом (например, фильтры в интернет-магазине), вы можете запретить их индексацию, чтобы не размывать позиции в поиске.
- Скрывает служебные разделы: админка, личные кабинеты, тестовые страницы — всё это можно скрыть от поисковиков.
- Улучшает качество индексации: роботы сосредоточатся на главных страницах, а не на мусоре.
Как это работает
Robots.txt — это обычный текстовый файл, который состоит из нескольких простых правил. Он работает по принципу «разрешить» или «запретить» для конкретных роботов.
Основные элементы:
- User-agent — указывает, для какого робота действует правило. Например,
User-agent: Googlebot— для Google,User-agent: *— для всех роботов. - Disallow — говорит, какие пути (URL) запрещены. Например:
Disallow: /admin/. - Allow — иногда используется, чтобы разрешить доступ к конкретной подпапке внутри запрещённой. Например:
Allow: /admin/public/. - Sitemap — ссылка на карту сайта, чтобы роботы быстрее находили важные страницы.
Файл читается сверху вниз. Первое совпадение — решающее. Если у вас есть Disallow: / и потом Allow: /index.html, то Google может проигнорировать Allow — потому что запрет уже сработал. Поэтому порядок важен.
Виды Robots.txt
Robots.txt не имеет строгих «типов», но его правила можно разделить по цели:
- Базовый блокирующий. Просто запрещает доступ к служебным папкам:
/admin/,/wp-admin/,/tmp/. Используется на всех сайтах. - Оптимизированный под SEO. Убирает дубли, фильтры, страницы с параметрами (например,
?sort=price). Помогает улучшить качество индексации. - Конфиденциальный. Запрещает доступ к личным данным, внутренним документам или тестовым версиям сайта. Часто встречается на корпоративных сайтах.
- Полный запрет.
User-agent: *иDisallow: /— означает «не индексируйте ничего». Используется, например, на сайтах-заглушках или в разработке.
Простой пример
Допустим, вы сделали интернет-магазин с товарами. У вас есть страницы: /products/, /cart/, /admin/login/ и /products?sort=price.
До robots.txt роботы Google лазили по всему: индексировали корзину, админку и 50 разных версий страниц с фильтрами. В поиске появились странные ссылки, сайт тормозил, а позиции упали.
Вы добавили файл robots.txt с правилами:
User-agent: *
Disallow: /cart/
Disallow: /admin/
Disallow: /products?
Sitemap: https://example.com/sitemap.xml
После этого Google перестал индексировать корзину и фильтры. Сайт стал быстрее грузиться, а в поиске появились только настоящие товары. Через месяц позиции выросли на 30%.
Как начать
- Создайте файл
robots.txtв текстовом редакторе (например, Блокнот или VS Code). Ничего сложного — просто пишите строки, как в примере выше. - Загрузите его в корень вашего сайта — то есть на адрес
вашсайт.ру/robots.txt. Если файл не открывается — значит, вы положили его не туда. - Проверьте через Google Search Console или Яндекс.Вебмастер — там есть инструменты, которые покажут, правильно ли файл распознаётся.
- Не запрещайте главные страницы — если вы закроете
/products/, товары не попадут в поисковик. - Обновляйте файл — когда добавляете новые служебные разделы, не забывайте их включать.
Частые вопросы
Чем Robots.txt отличается от мета-тега noindex?
Robots.txt — это запрет на сканирование. Мета-тег noindex — это запрет на индексацию, но страница всё равно сканируется. То есть robots.txt — «не заходи», а noindex — «зайди, но не добавляй в поиск».
Можно ли обойтись без Robots.txt?
Да, можно. Но тогда поисковики будут сканировать всё подряд — и это может замедлить сайт, перегрузить сервер или вывести в поиске ненужные страницы. Лучше иметь хотя бы базовый файл.
Кому в первую очередь стоит разбираться в Robots.txt?
Веб-мастерам, владельцам интернет-магазинов и тем, кто занимается SEO. Даже если вы не программист — достаточно знать, как создать простой файл и проверить его в Google Search Console.