Jak sprawdzić, czy strona działa i prawidłowo się indeksuje

Jak sprawdzić, czy strona działa i prawidłowo się indeksuje?

Twoja strona nie wyświetla się w wynikach wyszukiwania? Zauważasz, że nagle traci pozycje? Może to wskazywać na problemy z indeksacją. W artykule przedstawiamy 8 sposobów na to, jak sprawdzić, czy strona prawidłowo się indeksuje i jak zadbać, by była widoczna zarówno dla użytkowników, jak i robotów.

Kiedy powinieneś podejrzewać, że ze stroną mogą być problemy?

Oto kilka przykładowych sytuacji, które powinny zasugerować Ci, że ze stroną dzieje się coś niedobrego:

  • strona traci pozycje,
  • strona nie działa w przeglądarce,
  • strona działa w przeglądarce, ale roboty (np. Uptime Robot) wskazują, że jest dla nich niedostępna.

Oczywiście to tylko najczęstsze przykłady, takich sytuacji może być znacznie więcej. Niektóre z nich czasem bywają trudne do zdiagnozowania, natomiast inne widać na pierwszy rzut oka.

Jak zbadać problem z indeksacją?

Oto lista przydatnych narzędzi, którymi można się posługiwać, by sprawdzić, czy strona jest zaindeksowana. Wskazujemy także miejsca w kodzie, które należy zbadać.

Komenda site

Gdy wpiszesz w wyszukiwarkę Google komendę “site:nazwastrony.pl”, to wyświetlą Ci się wszystkie zaindeksowane podstrony. Strona główna z reguły jest na pierwszym miejscu w wynikach. Jeśli jej nie widzisz, to znaczy, że strona może mieć problemy. To właśnie strona główna zwykle jako pierwsza “obrywa”, gdy witryna ma problemy techniczne.

Cache strony

Stronę można również sprawdzić w cache Google, wpisując w pasku przeglądarki “cache:nazwastrony.pl”. Jeśli strony nie ma w cache’u to również jest sygnał, że robot może mieć problem z jej indeksacją.

Uptime Robot 

Uptime Robot to przydatne narzędzie, które informuje Cię, jeśli strona przestaje działać.

 Uptime Robot - narzędzie monitorujące dostępność strony

Czerwony kolor na wykresie oznacza, że strona w tym czasie nie działała. Powinno to zaniepokoić i skłonić do dokładniejszego zbadania sprawy. 

Uptime Robot - tabela z datami i czasem, gdy strona była niedostępna

Pod wykresem widać tabelę, w której są wskazane daty i czas, gdy strona była niedostępna.

Google Search Console (GSC) 

Jeśli masz dostęp do Google Search Console, to w tym miejscu możesz znaleźć wiele cennych informacji, m.in. sprawdzić, czy strona zwraca jakieś błędy. 

Możesz również wkleić w pasku u góry adres strony i zobaczyć, czy jest dostępna opcja, by zgłosić ten adres do indeksacji. Jeśli robot ma problem z dostaniem się na stronę, to zwróci błąd w momencie, gdy będziesz chciał zaindeksować stronę.

Google Search Console - sprawdzanie adresu witryny
Tutaj wklej adres swojej strony

Jeśli ze stroną nie ma żadnych problemów, to zobaczysz taki widok.

Google Search Console - informacje o stanie indeksacji strony

Znajdziesz na nim kolejno:

  1. Informację, że strona jest zaindeksowana.
  2. Możliwość zgłoszenia strony do ponownej indeksacji (przydatne, gdy np. na stronie wprowadzone zostały jakieś zmiany i chcesz, żeby robot je odnotował).
  3. Informację o stanie witryny i ewentualnych błędach. W zaprezentowanym widoku mamy informację, że nie występują żadne błędy.
  4. Dodatkowe ulepszenia zastosowane na stronie i ich stan.

Robots.txt

W pliku robots.txt można blokować wszystkie lub konkretne roboty crawlujące. Plik ten można znaleźć, gdy do adresu strony dodasz “/robots.txt” np. https://seo4.net/robots.txt

Jeśli wyświetli Ci się strona 404, to oznacza, że plik nie istnieje. Jeśli plik nie istnieje, to każdy z robotów powinien mieć dostęp do strony. 

Jeśli wyświetli Ci się “pusta” strona, oznacza to, że plik istnieje, ale nie ma w nim żadnych reguł. W tym wypadku roboty również nie powinny być blokowane i powinny mieć dostęp do danej strony. 

Jeśli widzisz treść, to znaczy, że plik istnieje i są w nim jakieś reguły. Należy przeanalizować jego treść i sprawdzić, czy nie zostało zablokowane coś, co powinno być widoczne dla robotów.

Przykładowy plik robots.txt dla stron opartych o CMS WordPress wygląda następująco:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php.

W pliku tym widać, że dodano dyrektywny dla każdego robota odwiedzającego stronę, w których zablokowano dostęp do adresów /wp-admin/, natomiast zezwolono robotom na odwiedzenie adresu /wp-admin/admin-ajax.php.

Narzędzie httpstatus.io 

To narzędzie pozwala sprawdzać przekierowania na stronie, znajdziesz je pod adresem https://httpstatus.io/

Gdy zbadasz adres strony, to otrzymasz informację, jaki jest jej status code oraz czy są ustawione przekierowania

Dla przypomnienia – lista najczęściej spotykanych status code:

  • 200 – strona działa
  • 404 – strony nie znaleziono
  • 301 – permanentne przekierowanie (strona na stałe zmieniła swój adres)
  • 307 – przekierowanie tymczasowe (strona przez jakiś czas działa pod innym adresem)
  • 500 – błąd serwera.

Możesz również sprawdzić, czy strona prawidłowo kieruje na jeden docelowy adres (opcja “Canonical domain check”). W tym narzędziu możesz testować stronę za pomocą różnych agentów np. Google Chrome, Mozilla Firefox itp.

Narzędzie httpstatus.io - sprawdzanie przekierowań

Źródło strony

W źródle można sprawdzić, czy na stronie nie jest ustawiony tag “noindex”. Źródło można wyświetlić klikając prawym przyciskiem myszy na stronie i wybierając “Pokaż źródło strony” lub użyć skrótu Ctrl+U. W wyświetlonym źródle należy wyszukać słowa “noindex”.

Strona powinna mieć zapis: 

<meta name="robots" content="index,follow" />

Brak tego tagu jest równoznaczny z tym, że stronę można indeksować. 

Jeśli widzisz, taki zapis:

<meta name="robots" content="noindex,follow" />

to wiedz że strona jest zablokowana przed indeksacją i nie pojawi się w wynikach wyszukiwania. Oczywiście w niektórych przypadkach zastosowanie tagu “noindex” jest wskazane i nie jest błędem. 

Warto mieć również na uwadze, że strony zablokowane za pomocą tagu “noindex” nie powinny być blokowane w robots.txt. W dokumentacji Google znajduje się taki zapis:

Ważne: aby dyrektywa noindex działała poprawnie, nie możesz blokować strony w pliku robots.txt ani w żaden inny sposób uniemożliwiać robotowi dostępu do niej. Jeśli zablokujesz stronę w pliku robots.txt lub będzie ona niedostępna dla robota, nie odnajdzie on dyrektywy noindex i możliwe, że strona będzie się w dalszym ciągu wyświetlać w wynikach wyszukiwania, np. gdy linki do niej będą występowały na innych stronach.”

Źródło: https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=pl 

Plik .htacccess

Jeśli narzędzie httpstatus.io sugeruje, że strona może mieć problemy z przekierowaniami, warto zapoznać się z zawartością pliku htaccess. Możliwe, że zawiera on nieprawidłowe reguły, które mogą powodować np. pętlę przekierowań.

Jak widać – pomocnych narzędzi i miejsc, które należy zbadać jest sporo, każde z nich daje inne cenne informacje na temat stanu Twojej witryny. To, czy strona działa poprawnie i indeksuje się należy monitorować, a ewentualne problemy poprawiać na bieżąco. W ramach pozycjonowania, zajmujemy się zarówno monitorowaniem kluczowych parametrów strony, jak i naprawą błędów.

Zarządzaj plikami cookies