Gdy uruchamiasz swój nowy serwis dbasz, aby każda jego podstrona była zaindeksowana. Do tego celu wykorzystujesz mapy w GSC, mapy HTML, linkowanie wewnętrzne i zewnętrzne oraz szereg innych zabiegów. Dlaczego jednak Google nie indeksuje Twojego serwisu tak jakbyś chciał? Nierzadko dla dużych serwisów nagle Google potrafi wyindeksować dużą liczbę podstron. Na co zatem zwrócić uwagę?

Podejrzany canonical

Canonical jest jednym z najbardziej krytycznych elementów, które zawsze trzeba sprawdzić (https://support.google.com/webmasters/answer/139066?hl=pl).

  • stronicowanie (paginacja) – zmiana sposobu implementacji parametru canonical z typowego „sam na siebie” (czyli indeksujemy całą paginację) na wskazujący pierwszą stronę powoduje, że Google wyindeksuje pozostałe podstrony. Może się też tak zdarzyć, że zacznie wyindeksowywać produkty ponieważ stronicowanie jest jedną ze ścieżek dojścia do produktów dla Googlebota
  • brak wdrożenia – jeśli nie masz w serwisie wdrożonego parametru canonical może (ale nie musi) dochodzić do indeksowania podstron z parametrami i bez parametrów. Spowoduje to pojawienie się duplikacji treści a to z kolei zadziała na Googlebota jak płachta na byka – podstrony duplikujące się zaczną być usuwane z indeksu. Dodatkowo w przypadku wersji z różnymi wersjami językowymi canonical jest tak zwanym „must have” – bez niego href lang’i mogą być źle intepretowane
  • pusty canonical – jest to niespotykany przypadek, ale może się zdarzyć – wiecie, że taka implementacja canonical=”” (czyli pusto w pazurkach) powoduje, że Google traktuje taki zapis jako „sam na siebie”? No to już wiecie

Zgodnie z Googlowskim manualem podstrony z parametrem canonical wskazujące inna stronę niż własna powinny zostać wyindeksowane. Powinny! Ale nie musi tak być. Przy dużym linkowaniu zewnętrznym strona z canonical’em będzie pojawiać się w indeksie i znikać – jak kierunkowskaz w samochodzie. Ot taka ułomność algorytmów Google.

Blokowanie ważnych plików js,css i grafik

Google zwraca uwagę na sposób indeksowania serwisu pod kątem dostępu do plików javascript, css i grafik. Ich blokada może spowodować wyindeksowywanie serwisu z powodu gorszej użyteczności z jego punktu widzenia.

W narzędziu GSC znajduje się opcja „Pobierz jako Google”, która umożliwia Nam zweryfikowanie jak widzi serwis Google a jak użytkownik.

Oba ekrany, lewy i prawy, muszą być identyczne – jeśli tak nie jest to najprawdopodobniej poniżej tego ekranu, w sekcji zablokowanych rzeczy, widnieje informacja czego Googlebot nie mógł pobrać. Należy zweryfikować to i umożliwić mu pobieranie plików js, css, grafik i innych. Na pewno pojawią się tam skrypty zewnętrzne np. do analityki – tych plików nie uda się pobrać i na takowe nie zwracamy uwagi.

Przekierowania 30x

Zdarza się, że usuwając podstrony w serwisie musimy skorzystać z systemu przekierowań 301. Jeśli robimy to rzadko to Google w miarę szybko, w ciągu kilkunastu dni, potrafi przeindeksować stare i nowe adresy URL.

Należy jednak zwrócić uwagę na to, że częste przekierowywanie adresów URL jednego produktu czy usługi spowoduje fluktuacje w zakresie indeksacji adresów, które modyfikujemy.

W przypadku dużych serwisów przekierować może być bardzo duża liczba i zaczną się problemy, bo w wynikach wyszukania będzie widać stare i nowe adresy URL. Stabilizacja takiego stanu może zając nawet kilka tygodni przez co w GSC mogą pojawiać się różne komunikaty związane z np. adres URL znaleziony przez roboty, ale jeszcze nie zaindeksowany.

W takim przypadku pomocne jest GSC, w którym otrzymujemy komunikat związany z przekierowaniami w serwisie.

Prędkość działania serwisu

Ważnym aspektem działania serwisu jest jego prędkość działania serwisu. Google coraz większy nacisk kładzie na to aby serwisy ładowały się coraz szybciej. Wpływa to na komfort użytkownika (UX) oraz indeksację plus pozycje w wynikach (SEO).

Moim zdaniem, krytycznym elementem na który warto zwrócić uwagę to parametr TTFB – jest to wartość, wyrażona w milisekundach, i która jest mierzona od chwili wysłania zapytania do serwera, aż do chwili otrzymania pierwszego bajtu danych wysłanych przez tenże serwer do użytkownika.

Zazwyczaj weryfikujemy prędkość działania serwisu jedynie dla strony głównej. Jest ona zazwyczaj najcięższa. Warto jednak zweryfikować również prędkości dla kilku podstron. Długi czas ładowania podstron powoduje ich wyindeksowywanie. Nikt nie chce czekać na wyświetlenie strony kilkunastu sekund.

Powyżej wykres TTFB uzyskany dla zapytania „audyt seo” dla wyników organicznych w wyszukiwarce Google – łatwo porównać sobie konkurencję (ja jestem na #19) – wykres z narzędzia SurferSEO.

Treści w serwisie

Jedną z przyczyn słabej lub pogarszającej się indeksacji serwisu może być treść. Kilka przypadków, na które warto zwrócić uwagę to, jeżeli serwis traci na indeksacji to:

  • duplikacja treści – jeśli np. partie treści powtarzają się – przykładem jest tabela rozmiarów na każdej podstronie w sklepie internetowym czy też brak unikalnego adresu URL dla usługi czy produktu
  • mało treści (thin content) lub jej brak – kilkuwyrazowe opisanie produktu czy usługi, obrazki bez podpisu – to może być przyczyna słabej indeksacji
  • upychanie słów kluczowych – w takim przypadku dochodzi do wyindeksowania pojedynczego adresu URL i znalezienie problematycznych podstron może być bardzo trudne (algorytm Phantom) – dlatego tak ważne jest posiadanie dostępu do narzędzia Google Search Console bo tam, porównując konkretne okresy czasu dla poszczególnych adresów URL (a nie słów kluczowych), możemy zweryfikować czy URL jest wysoko na pozycjach czy też został w jakiś sposób ukarany np. wyindeksowaniem
  • kanibalizacja słów kluczowych – spotkałem się z opinią, że to też może być przyczyna wyindeksowania serwisu jednak sam tego nie stwierdziłem
  • ukrywanie treści – może się zdarzyć, że część treści lub większe partie, są ukryte przed użytkownikiem lub robotami Google – jest to tak zwany cloaking i może to spowodować niewłaściwą indeksację serwisu. Warto też sprawdzić poprawność indeksacji podstron, weryfikując cache w wynikach wyszukania. Może się okazać, że jakieś partie podstrony sa niewidoczne w cache – i bynajmniej nie chodzi o elementy wykonane ajax’em czy javascriptem.

Za dużo zasobów, za mało contentu

Google zwraca uwagę na to ile obrazków, skryptów i danych jest pobieranych w trakcie ładowania strony internetowej. John Mueller mówi:

“The more resources required, the longer time until the critical content is visible, the more likely Google will have trouble indexing the critical content.”

 

Czyli jeśli treści w stosunku do kodu I skryptów będzie mało oraz liczba niezbędnych do wykonania połączeń będzie bardzo duża, strony będą coraz wolniej ładowane. Wydłużony czas ładowania serwisu może mieć wpływ na indeksację.

Mała podpowiedź – mapa serwisu

Bardzo często użytkownicy dodają do GSC tylko jedną mapę. Nie ma problemu gdy mapa ta zawiera kilkadziesiąt adresów URL i kontrola poziomu indeksacji jest bardzo łatwa. Jednak pomimo małej istotności tego elementu warto się nad nim pochylić.

Zauważcie, że pomimo małego serwisu, poszczególne typy treści na blogu są rozbite na kilka drobniejszych map. Pozwala mi to zweryfikować poziom indeksacji dla poszczególnych sekcji mojego serwisu: wpisów, forum, usług. Na czerwono zaznaczyłem mapę główną, w której znajdują się odnośniki do innych plików map.

Takich plików mogę dodać 200 (testy pokazują, że nawet więcej), w każdym pliku mogę umieścić mapę map lub do 50 tys adresów URL (plik ma też określona maksymalną wagę). Czyli rozbijając mapę na pliczki mogę wykonać coś takiego:

Rozbicie mapy na drobne pozwala mi weryfikować poziom poszczególnych sekcji sklepu oraz poziom indeksacji produktów. Takie rozbicie ułatwia życie szczególnie przy serwisach z fototapetami, gdzie indeksacja jest niezwykle ważnym elementem pozyskiwania ruchu organicznego.

Podsumowanie

Poza przypadkami wskazanymi powyżej warto też sprawdzić:

  • plik robots.txt – czy nie zablokowaliśmy całego lub części serwisu
  • meta nagłówek – czy nie wstawiliśmy noindex
  • poleceniem site: czy domena nie została usunięta z indeksu
  • DMCA – czy ktoś nie zgłosił roszczeń do treści
  • Framework – czy serwis w ogóle się indeksuje bo ktoś mógł skopać wdrożenie np. angulara

Oraz inne przyczyny wyżej nieopisane. Przyjemniej lektury 🙂

1 gwiazdka2 gwiazdki3 gwiazdki4 gwiazdki5 gwiazdek (8 głosów, średnia: 3,38 z 5)

Paweł Gontarek

Paweł Gontarek

Paweł Gontarek - Zgred - pasjonat SEO, staram się zrozumieć czym jest i jak działa SEM oraz UX.

Komentarze

  1. Bardzo fajny artykuł. Ja dodam jeszcze coś ze swojego doświadczenia – uważajcie na blokadę „fakeowych” Googlebotów za pomocą wtyczki „All In One WP Security & Firewall” do CMS WordPress – można w ten sposób skutecznie zabronić indeksację naszej strony…

  2. Ostatnio w moim search console w zakładce
    Strona wykluczona za pomocą tagu „noindex”
    pojawiły się:

    https://adresstrony/sitemap_index.xml z 4/01/2019
    https://adresstrony/category-sitemap.xml z 31/12/2018
    https://adresstrony/page-sitemap.xml z 31/12/2018
    https://adresstrony/post-sitemap.xml z 31/12/2018

    Czy jest to błąd Yoasta ?
    W robots.txt mam typowe parametry, rzecz jasna niewykluczające własnych map xml.
    Co powinienem zrobić w takiej sytuacji ?

  3. W ostatnim czasie zauważyłem znaczne spowolnienie w indeksowaniu nowych strony w serwisie. Dodany wpis blogowy nie zindeksował się przez 3 tygodnie. Dopiero wrzucenie adresu do GSC pomogło (po kilku dniach). Zaobserwowaliście podobny trend?

  4. Blokowanie ważnych plików jak CSS, JS itp. jest często spotykane w robots.txt stron Joomla! W standardzie ten CMS ma to źle zrobione. Dużo zasobów trzeba odblokować na samym wstępie.

  5. Nie znam żadnej innej strony, żadnego innego bloga o tematyce SEO, gdzie tak prosto, przejrzyście i wnikliwie przedstawia się zagadnienia SEO.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Kategorie

Najnowsze komentarze

Popularne artykuły