Проблема дублювання контенту не часто згадують у рецензіях на сайти чи дискусіях на SEO-форумах. Проте вона може завдати чималої шкоди вашому сайту.
Канібалізація ключових слів відбувається тоді, коли кілька сторінок одного сайту містять одні й ті ж чи схожі ключові слова, тим самим заважаючи пошуковій системі вибрати, яка зі сторінок найбільше підходить для відображення результатів пошуку за цим словом.
Це явище не тільки викликає роздратування у власників сайтів, але й погано впливає на рейтинг ресурсу, поміщаючи той чи інший сайт серед помилкових чи небажаних результатів пошуку за запитом.
Що таке дублі сторінок та їх види
Дублі — це вебсторінки, що мають однаковий вміст, але також мають різні URL-адреси. Іншими словами, вони являють собою окремі сторінки сайту, контент яких повністю або частково збігається. З огляду на це виділяють два основні види дублів — повні та часткові.
Що таке дублі — розібралися. Тепер перейдемо до того, чому це погано.
Залежно від того, наскільки вміст однаковий, дублі сторінок на сайті прийнято класифікувати на:
- повні;
- часткові.
Зупинимося на кожному детальніше.
Повні дублі
Вони містять на 100% ідентичний контент. Але при цьому матеріали розміщено на різних урлах.
Серед основних прикладів:
- дзеркала веб-ресурсу, адреси яких містять www або ні. У такому разі важливо визначити головне дзеркало;
- дублі головної. В основному вони пов'язані зі специфікою системи CMS з управління ресурсом;
- дубльований контент реферальних посилань. Вони можуть під індексацію пошуковими ботами, у результаті створюються непотрібні сторінки, які заважають просуванню необхідних;
- дублі, зумовлені помилкою у ієрархії. Якщо логіка каталогу складена неправильно, то ідентичні картки товарів будуть розміщуватись під різними урлами;
- неправильне налаштування 404 сторінки. Якщо сервер віддає відповідь 200, виходить нескінченна кількість дублів;
- веб-сторінки з utm етикетки. Вони містять важливі параметри, які допомагають у відстеженні рекламних кампаній. Проте вони мають ідентичне сторінкам сайту наповнення;
- веб-сторінки, які містять велику кількість слеш(//, ///);
- дублі, поява яких зумовлена неправильно виконаним переїздом на протокол SSL.
Усі перелічені випадки вимагають оперативного усунення та уваги SEO-фахівця.
Часткові дублі
Так називаються сторінки, де міститься лише частина ідентичного для кількох урлів контенту. Здебільшого вони генеруються системами CMS.
Серед основних прикладів:
- веб-сторінки пагінації, сортування. Вони зазвичай стосуються CMS, про що свідчить спеціальний параметр get;
- веб-сторінки з результатами пошуку. Основна їхня небезпека полягає в тому, що відвідувачі можуть мимоволі генерувати їх у великій кількості за короткий час;
- дублі на картках товарів. Також вони зустрічаються на сторінках з відгуками, параметрами, коментарями. Вони генеруються на сайтах магазинів у процесі вибору табів на картці товарів;
- сторінки для скачування та друку;
- HTML-дублі веб-сторінок, створені за допомогою AJAX.
Такі випадки також вимагають оперативного виправлення, оскільки, незалежно від типу, дублювання контенту негативно позначається на просуванні ресурсу. Розкажемо докладніше.
Як дублювання вмісту впливає на SEO?
Під час перегляду сторінок вашого сайту пошукова система бачить, що деякі з них здаються однаково релевантними до певного ключового слова.
Допустимо, ключове слово у запиті – «іграшки для собак». Те, що воно зустрічається на одній або декількох сторінках вашого сайту, зовсім не означає, що Google вважатиме ресурс релевантнішим запиту про іграшки для собак, ніж сайти ваших конкурентів. Швидше, Google доведеться вибирати серед кількох сторінок вашого сайту, вирішуючи, яка з них найбільше відповідає запиту. У цьому випадку безліч інструментів, які використовуються цим ресурсом, втрачають свою значущість:
Анкор тексту. Через те, що ви посилаєтеся одразу на кілька сторінок, об'єднаних однією темою, вага не концентрується за посиланням з анкором, а отже, і не передається потрібній нам сторінці.
Зовнішні посилання. Якщо 4 зовнішні посилання вказують на одну сторінку вашого сайту з ключовим словом «іграшки для собак», 2 сайти-донори посилаються на іншу його сторінку з цим же ключем, а ще на 7 ресурсах розміщено посилання на третю сторінку вашого сайту, що містить схожий контент, то ви розпорошуєте вагу зовнішніх посилань по сторінках замість того, щоб сконцентрувати його на одній з них.
Якість контенту Якщо автор пише чотири статті поспіль на ту саму тему, якість контенту буде не на висоті, чи не так? Нехай краще буде одна сторінка, що приваблює найбільше зовнішніх посилань і рефералів, ніж кілька нічим не примітних сторінок-клонів.
Коефіцієнт конверсії. Якщо конверсія певної сторінки вашого сайту вища, ніж конверсія інших сторінок, задумайтеся, навіщо вам сторінки, націлені на ту саму аудиторію, проте мають меншу кількість переходів. Почніть відстежувати переходи на сайт, щоб дізнатися про конверсію.
Радимо також почитати, що таке SEO-оптимізація сайту та як правильно її виконувати.
Як знайти дублі сторінок?
Існує декілька способів пошуку дублів сторінок. Кожен із них має свої переваги й недоліки.
Найчастіше пошук здійснюється за допомогою:
- пошукових операторів;
- спеціалізованих програм;
- сервісів web-аналітики;
- панелі Search Console Google.
Також можна шукати сторінки вручну. Детальна інструкція, як знайти дублі сторінок різними способами, — далі.
За допомогою інструментів
Існують різні спеціальні програми, які виконують пошук дублів сторінок сайту. Вони сканують ресурс, після чого формують звіт із знайденими результатами. До таких інструментів належать:
- Netpeak Spider;
- Xenu;
- Screaming Frog Seo Spider.
Ці програми знаходять сторінки на ресурсі з повністю ідентичним контентом, дублями в блоці, повтори «title», «description». Пошук потенційних дублів може виконати також сервіс Serpstat, яким користуються багато SEO-фахівців.
За допомогою пошукових операторів
Знайти дублі сторінок на сайті можна й іншим способом – проаналізувавши ті, які вже пройшли індексацію. Використовується для цього «site:» – спеціальний оператор, який вводиться в рядок пошукової системи разом з іншою комбінацією спеціальних символів. Виглядає запит так: «site:examplesite.net».
Після введення команди та запуску функції пошуку у видачі з'являться веб-сторінки в загальному індексі. Таким чином можна відстежити, наскільки кількість відрізняється від тих, що містяться в карті XML або знайдені спайдером. Проаналізувавши видачу, вдасться виявити «сміттєві» сторінки та ті, на яких є дублювання контенту. Їх слід видаляти з індексу.
Ще пошук можна здійснити через аналіз видачі за окремими фрагментами тексту. Брати за зразок потрібно контент із тих веб-сторінок, які за підозрою можуть мати дублі. Виконується пошук наступним чином: відрізок тексту береться в лапки, ставиться пропуск, вписується «site:». Наприклад:
«Частина тексту, яку можна продублювати» site:examplesite.net.
Все це потрібно ввести у пошуковий рядок. Ще потрібно вказати посилання на свій ресурс, щоб знайти сторінки з ідентичним текстом. Якщо в результаті відображається лише одна сторінка, то дублів немає, а коли кілька, то потрібно їх проаналізувати, розібратися з причинами дублювання контенту.
Так само можна використовувати і оператор «intitle». Він допомагає аналізувати зміст title на сторінках, які відображаються у видачі. Копіювання цієї частини тексту часто свідчить про наявність дублів сторінок. Напевно, переконатися можна перевіривши. Для цього необхідно також використовувати "site:". Приклад запиту буде таким:
site:examplesite.net intitle: текст title повністю або частково.
Також можна знайти і за допомогою операторів "inurl" та "site" дублі, які утворилися на сторінках сортування, пошуку або фільтрів (sort, search, filter). Приклад:
site:examplesite.net inurl:sort.
Замість останнього атрибута можна підставляти інші: search чи filter.
Зазначимо, що пошукові оператори демонструють лише дублі сторінок на сайті, які пройшли індексацію. Тобто на 100% довіряти методу не варто, для перестрахування краще використовувати інші підходи.
Як позбутися дублювання контенту?
Вище ми розповіли, що таке дублі та якими вони бувають. Також роз'яснили вплив такого явища на пошукове просування. Тепер розглянемо як видалити дублі на сторінках. Є кілька способів, що допоможуть вирішити проблему.
Налаштувати 301-й редирект
Це основний метод, який допоможе видалити дубльований контент. Суть його полягає у автопереадресації з однієї веб-сторінки на іншу. Роботи реагують на налаштування редиректу, фіксують, що за конкретним урлом сторінки більше немає.
Даний метод дозволяє також передавати на головну вагу з дублів.
Використовувати 301-й редирект можна для усунення копій сторінок, які з'являються в результаті:
- порушень в ієрархії адрес;
- використання URL у кількох регіонах;
- визначення дзеркала ресурсу;
- проблем з множинними слішами.
Наприклад, застосовується спосіб перенаправлення з веб-сторінок на кшталт https://site.net/catalog///product на правильну – https://site.net/catalog/product .
Налаштування файлу robots.txt
Цей метод допомагає показувати пошуковим роботам, які зі сторінок або файлів не потрібно сканувати.
Необхідно для цього застосувати Disallow. Ця директива забороняє роботам відвідувати непотрібні сторінки: Disallow: /stranica.
Варто відзначити один аспект. Якщо сторінка в robots.txt не вказана з даною директивою, вона все одно буде демонструватися у видачі. Причина в тому, що раніше вона пройшла індексацію або на неї є посилання (зовнішні або внутрішні). Згідно з інструкціями, robots.txt для роботів мають пошуковий характер. Тобто, гарантовано видалити дублі на сторінках вони не можуть.
Метатеги noindex
Їх дещо і вони можуть давати різні команди.
допомагає вказати роботу, що індексувати документ і переходити на посилання не потрібно. Метатег на відміну robots.txt – це пряма команда. Її боти не ігноруватимуть.
діє інакше. Він дає команду не проводити індексацію документа, але робот може переходити за посиланнями, які містяться в ньому.
За заявою представника Google, постійно використовувати метатег noidex, follow і сподіватися на його коректність при пошуку сторінок, де є дублювання контенту, не варто. Згодом система починає його сприймати як "noidex, nofollow".
Атрибут rel="canonical"
Буває, що потрібно знайти дубльований контент на сайті, але при цьому видаляти веб-сторінку не можна і потрібно залишити її відкритою для перегляду. У таких ситуаціях допоможе тег на сторінках з фільтрами та сортуваннями, utm-мітками та get-параметрами. Його застосовують для друку, якщо передбачається використання схожого змісту, але у різних мовних версіях чи доменах.
Щоб використовувати атрибут rel="canonical", потрібно вказати адресу веб-сторінки, яку потрібно проіндексувати. Наприклад: є на сайті розділ "Ноутбуки". У цій категорії фільтри налаштовані на показ різних параметрів: бренд, роздільна здатність екрана, колір, матеріал корпусу та ін. Якщо такі сторінки просуватися не будуть, то потрібно в якості канонічної вказати загальну веб-сторінку розділу. Створити її можна через написання HTML-коду атрибуту rel="canonical". Його вміщують всередині….
Приклад: для сторінок https://site.net/example/print, https://site.net/index.php?example=10&product=25 та інших розділу канонічної буде виступати https://site.net/exampl. При введенні в код HTML атрибута він буде виглядати так: