Навіщо потрібний файл Robots.txt і як його написати
Роботи пошукових систем при вході на сайт першою справою звертаються до файлу robots.txt, щоб отримати інструкції до подальшого дії і дізнатися, які файли і директорії заборонені до індексуванню. Тому веб-майстру вкрай необхідно знати, як правильно написати цей файл, так як помилки в ньому можуть призвести до дуже плачевних наслідків. Ще раз повторимося і уточнимо, що файл robots.txt нічого не дозволяє до індексації, а тільки забороняє. І ще один нюанс. Він не є стовідсотковою вказівкою для пошукових роботів. Скоріше можна сказати, що він є рекомендаційним документом.
Файл robots.txt - звичайний файл із розширенням txt, який створюють за допомогою блокнота і розташовують у кореневій директорії конкретного сайту і який містить інструкції по індексації для пошукових роботів. Інструкції можуть бути, як загальні, так і для конкретних роботів окремі.
А тепер трохи докладніше про файл robots.txt.
Основні правила при створенні і завантаження файлу robots.txt: не плутати назву, тобто називати файл robots.txt, а не robot.txt і так далі. писати назву файлу robots.txt обов'язково в нижньому регістрі, тобто robots.txt, а не Robots.txt і ROBOTS.TXT і так далі. розміщувати файл robots.txt саме в кореневій директорії сайту, а не в якому іншому місці.
Також дуже важливо грамотний вміст файлу robots.txt, тому розповім докладніше про цей момент. Помилки у вмісті цього файлу можуть призвести до того, що сайт або окремі його директорії або файли не будуть проіндексовані.
Отже, з чого ж складається вміст файлу robots.txt? Ось приблизний його зміст:
User-agent: *
Disallow: / adminka /
Disallow: / image /
Давайте розберемо зміст цього файлу.
Перший рядок «User-agent: *». Зірочка в інструкції User-agent позначає, що дана інструкція відноситься до всіх пошукових роботів. Якщо інструкція призначена для конкретного пошукового робота, то необхідно прописати його ім'я. Другий і третій рядок забороняють індексацію директорій adminka і image. Зверніть увагу, що кожна заборонена до індексації директорія прописана в окремому рядку. Поєднання їх у одному рядку є грубою помилкою. Також не можна переносити рядки в межах однієї інструкції.
Для пошукового робота Яндекса актуально також писати директиву Host. Ця директива вказує роботу на основне дзеркало цього сайту. У цій директиві можна прописати адресу сайту або з www, або без www. Яка різниця запитаєте ви? Та ніякої. Можна вказувати і так, і так. Все залежить виключно від вашого бажання. Ніяких обмежень і утисків для вашого сайту не буде. Правильно написати директиву Host потрібно так:
User-agent: Yandex
Disallow: / adminka /
Host: www.site.ru
А тепер наведу конкретні приклади написання файлу robots.txt для різних завдань. Заборонити весь сайт до індексації всіма пошуковими роботами.
User-agent: *
Disallow: /
Не забороняти весь сайт до індексації всіма пошуковими роботами.
User-agent: *
Disallow:
Заборонити весь сайт до індексації одним пошуковим роботом (наприклад, SeoBot).
User-agent: SeoBot
Disallow: /
Не забороняти весь сайт до індексації одному роботу (наприклад, SeoBot) і заборонити до індексації всім іншим пошуковим роботам.
User-agent: SeoBot
Disallow:
User-agent: *
Disallow: /
Заборонити кілька директорій до індексації всіма пошуковими роботами.
User-agent: *
Disallow: / directoria-1 /
Disallow: / directoria-1 /
Disallow: / hidedirectoria /
Заборонити кілька файлів до індексації всіма пошуковими роботами.
User-agent: *
Disallow: / hide.php
Disallow: / secret.html
Які ж помилки слід не допускати в написанні вмісту файлу robots.txt?
Ось основні правила написання вмісту файлу robots.txt:
Писати вміст файлу потрібно тільки в нижньому регістрі.
У кожній інструкції Disallow вказувати тільки одну директорію або один файл.
Не змінювати місцями інструкцію Disallow і User-agent.
Не залишати порожній рядок User-agent. Якщо інструкція відноситься до всіх пошукових роботів, то писати зірочку, а якщо до конкретного пошуковому роботу, то писати його ім'я.
У директиві Host (для Яндекса) адреса писати треба без протоколу http:// і без закривающого слеша /.
Не потрібно використовувати символи підстановки в інструкції Disallow у вигляді зірочки і інших символів.
Намагатися не писати коментарі до інструкцій в одному рядку з інструкціями.
Не можна пропускати інструкцію Disallow. Якщо ви не збираєтеся нічого забороняти до індексації, то залиште цю інструкцію порожню.
При забороні до індексації директорій обов'язково прописувати слеш.
Найголовніше правило - перш ніж залити файл robots.txt на сервер сайту потрібно сто разів його перевірити і перевірити ще раз, щоб уникнути подальших непорозумінь.