Як використовувати файл robots.txt

403

На початку літа інтернет-маркетологи відзначили ювілей: файлу robots.txt виповнилося 20 років. В честь цього Google розширив функціональність інструментів для веб-майстрів, додавши в набір засіб перевірки файлу robots.txt. Досвідчені маркетологи прекрасно знають, що це за файл і як з ним працювати. А початківці фахівці отримають базову інформацію з цієї статті.

Як використовувати файл robots.txt

Навіщо необхідний файл robots.txt

У файлі robots.txt міститься інформація, яку використовують при скануванні сайту пошукові роботи. Зокрема, з robots.txt краулеры дізнаються, які розділи сайту, типи сторінок чи конкретні сторінки не слід сканувати. За допомогою цього файлу ви виключаєте з індексу пошукових систем контент, який не хочете показувати пошуковикам. Також ви можете заборонити індексування дубльованого контенту.

Якщо ви використовуєте robots.txt неправильно, це може коштувати вам дорого. Помилковий заборона на сканування виключить з індексу важливі розділи, сторінки або навіть весь контент цілком. В цьому випадку вам складно розраховувати на успішне просування сайту.

Як працювати з файлом robots.txt

Текстовий файл robots.txt містить вказівки для роботів пошукових систем. Зазвичай його використовують для заборони сканування службових розділів сайту, дубльованого контенту або публікацій, які не призначені для всієї аудиторії.

Якщо у вас немає необхідності закривати від сканування будь-який контент вам можна не заповнювати robots.txt. У цьому разі запис у файлі виглядає так:

User-agent: *

Disallow:

Якщо ви з якихось причин збираєтеся повністю заблокувати сайт для пошукових роботів, запис у файлі буде виглядати так:

User-agent: *

Disallow: /

Щоб правильно використовувати robots.txt ви повинні мати уявлення про рівні директив:

  • Рівень сторінки. У цьому випадку директива виглядає так: Disallow: /primerpage.html.
  • Рівень папки. На цьому рівні директиви записуються так: Disallow: /example-folder/.
  • Рівень типу контенту. Наприклад, якщо ви не хочете, щоб роботи індексували файли у форматі .pdf, використовуйте наступну директиву: Disallow: /*.pdf.

Будьте обережні

Пам’ятайте про найбільш поширені помилки, що зустрічаються при складанні robots.txt:

  • Повна заборона індексації сайту пошуковими роботами

У цьому випадку директива виглядає так:

User-agent: *

Disallow: /

Навіщо створювати сайт, якщо ви не дозволяєте пошуковикам його сканувати? Використання цієї директиви доречно на стадії розробки або глобального удосконалення ресурсу.

  • Заборона на сканування індексуємого вмісту

Наприклад, веб-майстер може заборонити сканувати папки з відео та зображеннями:

Disallow: /images/

Disallow: /videos/

Складно уявити ситуацію, в якій заборона на сканування індексуємого контенту був би виправданим. Зазвичай такі дії позбавляють сайт трафіку.

  • Використання атрибуту allow

Ця дія не має ніякого сенсу. Пошукові системи за замовчуванням сканують весь доступний контент. З допомогою файлу robots.txt можна заборонити сканування, однак вирішувати що-небудь індексувати не потрібно.

Інструмент перевірки файлу robots.txt

У середині липня Google представив інструмент перевірки файлу robots.txt доступний в панелі веб-майстрів. Щоб знайти його, скористайтесь меню «Панель інструментів сайту – сканування – інструмент перевірки файлу robots.txt».

Як використовувати файл robots.txt

Новий інструмент вирішує наступні завдання:

  • Відображення поточної версії файлу robots.txt.
  • Редагування та перевірка коректності файлу robots.txt безпосередньо в панелі веб-майстрів.
  • Перегляд старих версій файлу.
  • Перевірка заблокованих URL.
  • Перегляд повідомлень про помилки файлу robots.txt.
Як використовувати файл robots.txt

Якщо Google не індексує окремі сторінки або цілі розділи вашого сайту, новий інструмент допоможе вам протягом декількох секунд перевірити, чи пов’язано це з помилками файлу robots.txt. За даними експерта Google Асафа Арнона, інструмент підсвічує конкретну директиву, яка призводить до блокування індексування вмісту.

Як використовувати файл robots.txt

Ви можете внести зміни в robots.txt і перевірити його коректність. Для цього достатньо вказати, що вас цікавить URL і натиснути кнопку «Перевірити».

Представник Google Джон Міллер рекомендує всім власникам сайтів перевірити файл robots.txt за допомогою нового інструменту. На думку експерта, витративши кілька секунд на перевірку, веб-майстер може виявити критичні помилки, які перешкоджають краулерам Google.

Щоб правильно використовувати…

файл … robots.txt необхідно розуміти його практичний сенс. Цей файл служить для обмеження доступу до сайту для пошукових систем. Якщо ви хочете заборонити роботам сканувати сторінку, розділ сайту або тип контенту, внесіть відповідну директиву a robots.txt. Перевіряйте коректність використання файлу за допомогою нового інструменту доступного в панелі веб-майстрів Google. Це допоможе вам швидко виявити і усунути помилки, а також внести в robots.txt необхідні зміни.

Читайте також:

  • Аналіз вмісту. Частина 1. Збір метрик з допомогою плагіна Seo Tools
  • Google почав шифрувати 100% пошукових запитів: що робити?
  • 6 порад з використання Google Analytics для просунутих користувачів