Як сторінки сайту з'являються в пошуковій видачі, всім зрозуміло. Пошуковий робот гуляє по сторінках і додає їх в індекс. Чим більше сторінок в індексі, тим краще. Але на сайті інтернет-магазину є багато сторінок і навіть розділів, які не повинні проходити в індексацію - інакше це призведе до пессимізації вашого інтернет-магазину у видачі.
У цій статті Labrika.ru нагадує, що потрібно закрити від індексації на сайті інтернет-магазину, навіщо і як це зробити.
На сайті інтернет-магазину зазвичай закривають адміністративні дані, сторінки з особистими даними користувачів, що дублюється контент, хмара тегів, сторінки оформлення замовлення, кошик, RSS, результати пошуку і т.д.
НАВІЩО приховувати ці сторінки?
Адміністративні дані - це сторінка входу в адміністративну панель. Вона має на увазі тільки службове використання, пошуковій системі ці дані не важливі.
Особисті дані користувачів. Логічно, що довіряючи вам свої персональні дані, користувач не хоче їх поширення і появи у видачі. Особливо якщо це не просто ім'я та прізвище, а наприклад, номер кредитної картки.
Дублюючийся контент. Це справжній бич інтернет-магазинів. Навіть часткове дублювання може сильно пессімізіровать ваш сайт у видачі. В інтернет-магазинах ця проблема стоїть особливо гостро.
Ось найпоширеніші види дублюючого контентавІМ:
В ідеалі, цю проблему треба вирішувати заздалегідь, ще тільки проектуючи архітектуру сайту. Але якщо такої можливості немає, і "що маємо, то маємо", то треба прописати 301 редирект з безпечних сторінок на звичайні.
Хмара тегів. Дуже зручна система пошуку для користувачів. Але від пошукової системи такі речі краще приховувати. Причина та ж - неунікальність контенту (дублі).
Сторінки оформлення замовлення і корзина. Ці сторінки корисні тільки для користувачів. Пошуковим системам нема чого звертати на них увагу. Ніякої корисної і важливої інформації дані сторінки не містять.
ЯК приховати дані від індексації?
Найпростіший спосіб - використання файлу robots.txt. Файл Robots.txt - розташовується в кореневій папці сайту (наприклад, site.ru/robots.txt).
У ньому є безліч директив, але щодо індексації можна виділити дві: Disallow (забороняє) і Allow (роздільна).
Стандартний код з використанням цих директив виглядає так:
# Весь сайт закритий від індексації
# Від індексації закриті всі сторінки, крім розділу news
Щоб закрити індексацію для Google, потрібно на початку прописати: User-Agent: Googlebot.
А щоб врахувати обох пошукових роботів, потрібно прописати в коді так:
Використовувати цей файл потрібно акуратно, тому що можна випадково закрити важливі сторінки. При вказівці цілої папки в директиві Disallow, потрібно бути на 100% впевненим, що в цій папці немає нічого корисного.
Хотілося б зауважити, що файл robots.txt сприймається Яндексом і Google по-різному. Якщо закрити сторінки для Яндекса, він не буде звертати на них увагу. А ось для Google robots.txt - це всього лише рекомендація. Тобто ніяких гарантій, що сторінка не потрапить в індекс, немає.
Перекладати всю роботу на robots.txt теж не варто. Можливі випадки, коли файл виявиться недоступним з яких-небудь технічних причин. Тоді, все приховане стане явним, а це може обернутися справжнім seo-кошмаром.
Виходить, що єдиний засіб для настройки індексації є ненадійним?
Навіщо тоді потрібен файлrobots.txt і як по-іншому можна закрити сторінки?
В robots.txt можна закрити доступ до всього сайту на час внесення змін, корективів або переробки сторінок. Це необхідно, щоб пошукова система не вносила недопрацьовані сторінки в індекс.
Сторінки з особистими даними користувачів, форми реєстрації, сортування і пошуку можна закривати і в robots.txt. Але краще заборонити індексацію цих сторінок на рівні CMS. Так буде надійніше.
Для дублюються сторінок можна налаштувати 301 редирект або скористатися тегом rel = canonical - саме в цьому його пряме призначення
Також для заборони на індексацію можна використовувати мета-тегrobots. Він має 4 параметри: Index-Noindex і Follow-Nofollow. Щоб закрити сторінку від індексації, має бути вказано:
Використання цього мета-тега має свої переваги. Наприклад, ви можете закрити лише контент, якщо він дублюється, залишивши при цьому відкритими посилання.
Код, відповідно, зміниться:
З приводу закриття RSS-стрічки складно дати однозначну пораду. При просуванні в Яндексі, найкраще прибрати цю інформацію з індексу. А Google сприймає RSS більш адекватно, і поява стрічки в індексі, швидше за все, не зашкодить.