Sitemap.xml - čo to je, ako vytvoriť a prečo mať na 100%
📝Obsah
Čo je mapa stránok
Mapa stránky je súbor, v ktorom sú uvedené informácie o stránkach, jazykoch, obrázkoch, videách alebo iných súboroch a ich vzájomných prepojeniach. Tento súbor nie je pre čitateľa webu veľmi užitočný, ale vyhľadávače ho používajú na efektívnejšiu navigáciu na webe a vyhľadávanie nových stránok alebo aktualizáciu informácií o existujúcich stránkach.
V ideálnom svete by vyhľadávače nepotrebovali súbor s mapou stránky, pretože by vďaka nášmu dokonalému linkbuildingu a vyladenej technickej stránke webu samy našli všetok obsah a prepojenia medzi stránkami a súbormi. Nežijeme však v ideálnom svete, webové stránky nie sú dokonalé a ani roboty vyhľadávačov nie sú dokonalé. Preto by som povedal, že mať na webovej stránke mapu stránok je z hľadiska SEO v podstate absolútna nevyhnutnosť.
Pozrime sa, ako vyzerá mapa stránok, ako ju vytvoriť a ako o nej informovať vyhľadávače.
Je mapa stránok naozaj potrebná?
Ak nemáte úplne maličkú stránku s niekoľkými jednotkami stránok, ktoré sú dobre prepojené, a neplánujete publikovať žiadny obsah, potom áno. Mapa stránok je najjednoduchšie a najčistejšie riešenie, ako dať vyhľadávačom vedieť o novom obsahu alebo aktualizáciách staršieho obsahu. Ak plánujete na svojej stránke publikovať články, a to aj veľmi sporadicky, potrebujete jednoducho mapu stránok.
Ďalšia výnimka sa môže týkať stránok, ktoré jednoducho nechcete alebo nepotrebujete zobrazovať vo výsledkoch vyhľadávania. Mapa stránok sa používa na lepšiu navigáciu vo vyhľadávačoch, ale ak vám nezáleží na výsledkoch vyhľadávania, mapa stránok je vám vlastne nanič.
Toto sú naozaj jediné dôvody, ktoré ma napadli, prečo nemáte alebo neudržiavate mapu stránok. Napriek tomu, aj keď spĺňate tieto výnimky, mať súbor na týchto stránkach určite nie je na škodu.
Formáty mapy stránok
Mapy stránok môžu vyzerať rôznymi spôsobmi, preto sa pozrime na možnosti podporované spoločnosťou Google, ale v podstate jediná rozumná je tá úplne prvá, všetky ostatné sú naozaj len pre zaujímavosť.
Sitemap.xml – najlepší a jediný odporúčaný formát
Najlepším riešením, ktoré podporujú všetky vyhľadávače, teda Google, Seznam, Bing a ďalšie, je formát XML. Súbor môžete vytvoriť v klasickom poznámkovom bloku, stačí ho uložiť pod názvom sitemap.xml (súbor môžete pomenovať napríklad mojesitemap.xml, ale štandardný názov je sitemap.xml). Preto budem naďalej písať hlavne o sitemap.xml, pretože je to jediný formát, ktorý má zmysel.
Takto môže vyzerať veľmi jednoduchá mapa stránok.xml s dvoma adresami URL:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/1.html</loc>
<lastmod>2018-06-04</lastmod>
</url>
<url>
<loc>https://www.example.com/2.html</loc>
<lastmod>2018-07-04</lastmod>
</url>
</url>
Do mapy stránok XML môžeme pridať aj rozšírenia v podobe informácií o použitých obrázkoch alebo videách a údajoch. V ideálnom prípade môžete použiť priamo dokumentáciu spoločnosti Google a pozrieť si rozšírenie mapy stránok v praxi.
V uvedenom príklade vidíme povinné informácie o adrese URL medzi značkami <loc> a tiež nepovinnú značku <lastmod>, t. j. informácie o poslednej zmene stránky. Je to veľmi užitočný údaj, pretože vyhľadávačom oznamuje, že sa v článku niečo zmenilo a kedy, takže môžu opätovne navštíviť adresu URL a aktualizovať svoj index.
Predtým sa v mapách stránok používali aj značky, ako napr:
<changefreq>monthly</changefreq>
<priority>0.8</priority>
Tieto údaje naznačovali, ako dôležitý je pre nás článok (priorita od 0,0 do 1, pričom 1 je najvyššia) alebo ako často sú články v priemere aktualizované. Táto informácia je však v podstate zbytočná, tag <priority>
je v podstate bezvýznamná informácia, najmä keď číslo bolo aj tak prakticky vždy nastavené jednoducho na 1 pre všetky adresy URL, a priemerný čas zmeny stránky v <changefreq>
je presnejšie uvedený len dátumom poslednej aktualizácie, t. j. <lastmod>.
Dokonca aj vyhľadávače dnes túto informáciu v mape stránok jednoducho ignorujú, takže nemá zmysel ju pridávať.
Podľa špecifikácií XML sitemap spoločnosti Google alebo Seznam (alebo priamo podľa špecifikácií sitemap.org) by mal súbor sitemap.xml obsahovať maximálne 50 000 adries URL alebo 50 MB nekomprimovanej veľkosti. Zvyčajne je lepšie sa k tomuto počtu ani nepribližovať a radšej mať v jednom súbore maximálne jednotky tisíc adries URL, ale riešením je jednoducho vytvoriť viacero súborov sitemap.xml (napr. sitemap2.xml, sitemap3.xml atď.) a vytvoriť jednu mapu stránok, ktorá odkazuje na všetky ostatné mapy stránok. Formát zostane rovnaký ako v predchádzajúcom príklade, ale do značky <loc> pridáte adresy URL ostatných súborov mapy lokality. Rovnakým spôsobom by ste postupovali, ak by ste mali viacero súborov s mapou lokality, napríklad podľa kategórií vášho webu.
RSS alebo Atom feed
Ako mapu lokality možno použiť aj zdroj RSS alebo Atom. Google ich akceptuje, ostatné vyhľadávače ťažko povedať, ale aspoň Seznam v nápovede uvádza len mapy stránok vo formáte XML.
Textový súbor
Adresu URL môžete umiestniť aj do obyčajného textového súboru, napríklad sitemap.txt, ale na názve nezáleží, pokiaľ má príponu .txt. Do súboru nezapisujte nič okrem adresy URL stránky, napríklad vždy jednu na riadok:
https://www.example.com/abc.html
https://www.example.com/xyz.html
Spoločnosť Google akceptuje aj túto mapu stránky, ale napríklad na stránke Zoznamu nie je o tomto formáte žiadna zmienka, takže by som sa mu vyhol, aj keď jeho vytvorenie môže vyzerať veľmi jednoducho.
Ako vytvoriť súbor sitemap.xml
Ručné vytvorenie mapy lokality
Ak máte web len s niekoľkými stránkami a neplánujete vytvárať nový obsah (alebo nebudete vytvárať nové adresy URL), nie je až taký veľký problém vytvoriť súbor sitemap.xml ručne.
Teoreticky môžete vytvoriť väčšie mapy stránok ručne, ale je to zbytočná práca, pri ktorej by ste museli aktualizovať súbor pre každý nový vytvorený článok alebo dokonca pre každú zmenu článku v tagu <lastmod>
.
V každom takomto dokumente sa môžu vyskytnúť chyby, preklepy a nepresnosti alebo sa môže stať, že sa zabudne aktualizovať. Spätná kontrola, či sú všetky adresy URL skutočne v mape stránok, je prakticky nemožná, najmä ak máte stovky alebo dokonca tisíce adries URL, ktoré treba skontrolovať. Jednoducho povedané, nevytvárajte manuálne sitemap.xml, nestojí to za to.
Automatické vytvorenie sitemap.xml
O niečo lepším riešením je automatické vytvorenie mapy stránok so všetkými adresami URL, ktoré sa nachádzajú na vašom webe. Existujú rôzne generátory súborov sitemap.xml, napríklad https://www.xml-sitemaps.com/. Ich problémom je, že jednoducho nemusia nájsť všetky adresy URL, ktoré chcete zobraziť vo vyhľadávaní, a často môžu mať obmedzený počet generovaných adries URL.
Najväčším problémom však je, že by ste sa museli zaoberať aktualizáciou existujúcej mapy lokality po každom novom vytvorenom článku, čo je opäť len otrava. Preto je najlepším riešením vytvorenie dynamickej mapy stránok.
Vytvorenie dynamickej mapy stránky.xml
Jeúplne ideálne, ak sa nemusíte starať o súbor sitemap.xml a máte ho vytvorený a upravovaný úplne automaticky priamo vaším systémom. Ak teda vytvoríte stránku, bude hneď v sitemap.xml. Rovnako ako pri aktualizácii staršieho článku.
Ak používate systémy na správu obsahu, ako sú WordPress, Wix, Drupal, Joomla alebo iné, je dosť pravdepodobné, že systém na správu obsahu už túto mapu stránky vytvorí za vás, alebo si môžete celkom jednoducho nainštalovať rozšírenie, ktoré túto úlohu zvládne tiež. Existuje veľa pluginov na vytváranie máp stránok a v podstate nie je čo pokaziť. Vyberte si často sťahovanú aplikáciu s dobrým hodnotením a v 99 % prípadov neurobíte chybu. Vyhľadávače tiež overujú správnosť formátu sitemap.xml, ktorému sa budeme venovať neskôr v článku, alebo môžete použiť niečo ako tento validátor, ktorý je užitočný na to, aby ste vedeli, že formát je v poriadku a vyhľadávače budú sitemapu chápať.
Ak máte webovú stránku na mieru, t. j. ak ju pre vás vytvára programátor, je veľmi pravdepodobné, že sa postará o vašu mapu stránok. Ak nie, dajte mu vedieť, aby sa dynamicky vytvárala a aktualizovala.
Aké adresy URL (ne)zahrnúť do mapy stránok a ako by mali adresy vyzerať
V našich článkoch o duplicitnom obsahu sme písali niečo o kanonizácii. Ak máme na lokalite viacero adries URL s rovnakým obsahom (napríklad kvôli nezmyselným parametrom v adrese URL), vyberieme jednu adresu URL, ktorá je kanonická, t. j. hlavná, a na túto stránku odkážeme z ostatných pomocou kanonického odkazu.
Do mapy stránok sú zahrnuté len kanonické adresy URL, t. j. hlavné adresy. Aby sme nezahŕňali adresy URL s rôznymi nezmyselnými parametrami, ktoré nemenia obsah stránky a ktoré sú duplicitné.
Mapa stránok obsahuje aj adresy URL, ktoré chceme, aby vyhľadávače prehľadávali (napokon, tento súbor vytvárame práve pre vyhľadávače, aby sme im uľahčili prácu). Do výsledkov vyhľadávania nezahŕňame adresy URL, ktoré nechceme (zvyčajne ide napríklad o stránky s podmienkami používania nášho webu alebo zaheslované stránky, na ktoré sa vyhľadávač aj tak nedostane). Je vhodné zahrnúť aj tie stránky, ktoré chceme vo vyhľadávaní, ale na ktoré odkazy z webu prirodzene nevedú, pretože tieto stránky potom nemajú šancu byť nájdené vyhľadávačmi. SItemap vám s tým pomôže
Do mapy stránok zapíšeme aj adresu URL v absolútnom tvare, t. j. úplnú adresu, ktorú má vyhľadávač navštíviť.
Takže píšeme v tvare :
https://www.example.com/blog/clanek/
Nepíšeme v relatívnom tvare, t. j. s vynechaním protokolu a domény, napríklad v tvare /blog/clanek/
Kam umiestniť súbor sitemap.xml
Súbor môžeme umiestniť v podstate kamkoľvek chceme, ale úplne najlepšie je mať tento súbor k dispozícii priamo v koreňovom adresári, t. j:
https://www.example.com/sitemap.xml
Mapy stránok sa môžu nachádzať aj v podpriečinku našej webovej stránky, ale problémom je, že vyhľadávače berú do úvahy len tie adresy URL, ktoré súvisia s týmto podpriečinkom. Ak teda napríklad umiestnime mapu stránky na adresu:
https://www.example.com/sport/sitemap.xml
sme nemohli umiestniť odkazy na časť stránky, napríklad
https://www.example.com/financie/
Koreňový adresár je najlepší, pretože potom môžeme vložiť akúkoľvek adresu URL z celého webu.
Súbor sitemap.xml je vždy prepojený len s danou lokalitou. Do mapy stránok teda nemôžeme vkladať externé adresy URL vedúce na iné domény, jedinou výnimkou je rozšírenie záznamov vo forme odkazu na jazykovú verziu adresy URL, t. j. ak máme viacjazyčnú stránku alebo viacero stránok s rovnakým obsahom, len v inom jazyku.
Všimnite si, že ak máme web na subdoméne, napríklad blog.example.com, musíme mať pre obsah na tejto subdoméne samostatnú mapu stránok. Napríklad na adrese blog.example.com/sitemap.xml.
Ako dať vyhľadávačom vedieť o našej mape stránok a novom webe
Umiestnenie do súboru robots.txt
Súbor robots.txt, o ktorom som tu písal, je súbor, ktorý sa nachádza v koreňovom adresári našej webovej stránky. Jeho hlavnou funkciou je, že vyhľadávačom oznamuje, ktoré časti webu by nemali navštevovať (na druhej strane sitepama slúži na opačný účel, t. j. ktoré časti by určite mali navštíviť). Do súboru robots.txt môžeme tiež umiestniť odkaz na našu mapu stránok alebo viacero máp stránok. Do súboru robots.txt teda pridáme riadok:
Sitemap: https://www.example.com/sitemap.xml
Samozrejme, adresu URL mapy lokality nahradíme odkazom na našu skutočnú mapu lokality. Môžeme sem umiestniť aj viacero máp stránok, stačí skopírovať tento príklad a vymeniť adresu URL. Najlepšie je vytvoriť jednu mapu stránok, ktorá vedie na všetky ostatné mapy stránok, a potom umiestniť tento jeden odkaz do súboru robots.txt.
Vkaždom prípade umiestnite mapu lokality do súboru robots.txt, pretože vyhľadávače môžu mať problémy s nájdením vašej mapy lokality, najmä ak zvolíte iný ako štandardný názov. Seznam.cz dokonca uvádza, že mapa stránok musí byť jednoducho v robots.txt, hoci na SEO konferenciách ľudia zo Seznamu hovorili, že sú zvyčajne schopní nájsť štandardný názov bez pomoci. Napriek tomu pridajte tento riadok do robots.txt :)
Informovanie spoločností Google, Seznam alebo Bing o novom webe a mape stránok
Spoločnosť Google priamo ponúka možnosť vložiť adresu do mapy stránok v službe Google Search Console, o ktorej som písal tu. Po overení lokality stačí v ľavej ponuke vybrať položku Súbory mapy stránok a vložiť adresu URL. Google vám hneď oznámi, či je súbor čitateľný a či všetko prebehlo v poriadku. Vďaka tomu sa Google hneď dozvie o vašej lokalite, aj keď je úplne nová a nevedú na ňu žiadne odkazy, a dokonca hneď nájde vašu mapu lokality a začne ju indexovať.
Podobnú vec môžete urobiť pomocou nástroja Bing Webmaster Tools, ktorý môžete synchronizovať s konzolou Google Search Console, takže máte okamžite overené stránky aj s mapami stránok odoslanými do GSC.
To bohužiaľ nie je možné na stránke Seznam.cz, ale našťastie to nie je problém ani na novej stránke. Na pridanie novej adresy URL môžete použiť priamo službu. Vložte sem adresu URL, napríklad na svoju domovskú stránku alebo v podstate kamkoľvek inam na svojom webe, aby Seznam vedel, že stránka existuje. Potom už robot prečíta súbor robots.txt, kde je odkaz na mapu stránky, a začne indexovať.
Trochu alternatívnou metódou pri službe Google je zadanie adresy priamo do prehliadača:
https://www.google.com/webmasters/tools/ping?sitemap=URL_K_SITEMAP
napríklad:
https://www.google.com/webmasters/tools/ping?sitemap=https://www.example.com/sitemap.xml
Zadajte ho do adresného riadka prehliadača ako pri návšteve akejkoľvek webovej stránky.
V praxi tento spôsob pravdepodobne nie je ideálny, ale môže byť užitočný, ak si webovú stránku vytvárate sami alebo máte programátora. V skutočnosti môžete ľahko vytvoriť funkciu, v ktorej túto adresu použijete na automatické odoslanie pingu spoločnosti Google pri aktualizácii alebo vytvorení nového článku, čím jej dáte vedieť, že sa mapa lokality zmenila, takže je tiež šanca, že sa aktualizovaný obsah veľmi rýchlo objaví vo vyhľadávači.
Čo si z článku odniesť
Súbor Sitemap.xml je dôležitou, aj keď nepovinnou súčasťou vašej webovej stránky. V ideálnom prípade nainštalujete doplnok alebo poviete programátorovi, aby súbor vytvoril dynamicky, a vašou úlohou je len umiestniť odkaz naň do súboru robots.txt alebo do konzoly vyhľadávania Google, podľa okolností. O mapu lokality sa už ďalej nestarajte.
Z hľadiska SEO je to veľmi užitočný nástroj, ktorý umožňuje vyhľadávačom informovať o všetkých kanonických adresách URL, ktoré máte na svojom webe a ktoré sa majú zobrazovať vo výsledkoch vyhľadávania. Aj keď mapa stránky nie je z pohľadu používateľa zaujímavá, určite ju urobte správne. Nie je veľkou výhodou mať mapu stránok, pretože v súčasnosti ju má takmer každý, ale naopak, ak by ste ju nemali, podkopávali by ste si nohy.