Що таке Robots.txt?

Robots.txt

Що таке Robots.txt?

Файл robots.txt обмежує доступ пошукових роботів, таких як боти пошукових систем, до певних URL-адрес на веб-сайті. Він також може бути використаний для регулювання швидкості сканування для деяких пошукових роботів.

Всі "хороші" пошукові роботи дотримуються правил, зазначених у файлі robots.txt. Однак існують "погані" незареєстровані пошукові роботи, які часто використовуються для скрапінгу, що повністю ігнорують файл robots.txt.

Файл robots.txt повинен використовуватися для зменшення/оптимізації трафіку пошукових роботів на веб-сайті і не повинен використовуватися для керування індексацією веб-сторінок. Навіть якщо URL-адреса заборонена в robots.txt, вона все одно може бути проіндексована Google, якщо буде відкрита за зовнішнім посиланням.

Синтаксис файлу Robots.txt

Синтаксис файлу robots.txt містить наступні поля:

user-agent: сканер, до якого застосовуються правила
заборонити: шлях, яким не можна повзати
allow: шлях, який можна пройти (необов'язково)
карта сайту: розташування файлу карти сайту (необов'язково)
затримка сканування: керує швидкістю сканування (опціонально і не підтримується GoogleBot)

Ось приклад:

User-agent: RanktrackerSiteAudit Заборонити: /resources/ Дозволити: /resources/images/ Затримка сканування: 2 Sitemap: https://example.com/sitemap.xml

Цей файл robots.txt вказує сканеру RanktrackerSiteAudit не сканувати URL-адреси в каталозі "/resources/", окрім тих, що знаходяться в "/resources/images/", і встановлює затримку між запитами в 2 секунди.

Чому файл Robots.txt важливий?

Файл robots.txt важливий, оскільки він дозволяє веб-майстрам контролювати поведінку пошукових роботів на своїх сайтах, оптимізуючи бюджет на сканування і обмежуючи сканування розділів сайту, які не призначені для публічного доступу.

Багато власників веб-сайтів вирішують не індексувати певні сторінки, такі як сторінки авторів, сторінки для входу або сторінки членських сайтів. Вони також можуть заблокувати сканування та індексацію закритих ресурсів, таких як PDF-файли або відео, для доступу до яких потрібна реєстрація електронною поштою.

Варто зазначити, що якщо ви використовуєте таку CMS, як WordPress, сторінка входу /wp-admin/ автоматично блокується від індексації пошуковими роботами.

Однак важливо зазначити, що Google не рекомендує покладатися виключно на файл robots.txt для контролю індексації сторінок. І якщо ви вносите зміни на сторінку, наприклад, додаєте тег "noindex", переконайтеся, що сторінка не заборонена в robots.txt. Інакше Googlebot не зможе прочитати її і своєчасно оновити індекс.

Поширені запитання

Що станеться, якщо у мене немає файлу robots.txt?

Більшість сайтів не потребують наявності файлу robots.txt. Мета файлу robots.txt - передати конкретні інструкції пошуковим роботам, але це може бути непотрібно, якщо у вас невеликий сайт або сайт без великої кількості сторінок, які потрібно заблокувати від пошукових роботів.

З огляду на це, створення файлу robots.txt та його розміщення на вашому веб-сайті також не має жодних недоліків. Це полегшить додавання директив, якщо вам знадобиться це зробити в майбутньому.

Чи можна приховати сторінку від пошукових систем за допомогою robots.txt?

Так, приховування сторінок від пошукових систем є однією з основних функцій файлу robots.txt. Ви можете зробити це за допомогою параметра disallow і URL-адреси, яку ви хочете заблокувати.

Однак важливо зазначити, що просте приховування URL-адреси від Googlebot за допомогою файлу robots.txt не гарантує, що вона не буде проіндексована. У деяких випадках URL-адреса може бути проіндексована на основі таких факторів, як текст самої URL-адреси, текст анкора, що використовується в зовнішніх посиланнях, і контекст зовнішньої сторінки, на якій було виявлено URL-адресу.

Як перевірити мій файл robots.txt?

Ви можете перевірити свій файл robots.txt і перевірити, як працюють інструкції на конкретних URL-адресах, за допомогою тестера robots.txt в Google Search Console або за допомогою зовнішніх валідаторів, наприклад, від Merkle.

Robots.txt