Robots Artikler

Sådan styrer du søgemaskine-robotterne med robots.txt

Når du driver et website, så er det ikke altid, at du ønsker, at alt dit indhold bliver indekseret og dermed at finde via Google. Heldigvis kan du selv styre, hvilke sider der skal på Google og hvilke der ikke skal. I denne artikel kigger på vi en lille tekstfil, som hedder robots.txt, som du netop kan styre robotterne med!

En robots.txt fil er en lille fil, som placeres i roden af et website. Når en søgerobot besøger sitet, vil den først og fremmest undersøge om der eksisterer en robots.txt – hvis en sådan eksisterer, vil robotten undersøge dens indhold, og derefter rette sig efter de regler, som er beskrevet i filen.

Filen skal placeres i roden af dit website – altså ved siden af dit default (eller index) dokument. Hvis du bruger WordPress skal den placeres samme sted, som du finder din htaccess fil.

Hvad står der i filen?

Helt grundlæggende står der, hvilke robotter den skal gælde for og hvilke regler de skal følge.

Dette gøres ved at definere “Disallow” og “User-agent”

Lad os se på nogle eksempler

Alle robotter må læse alle sider

Hvis der ikke er nogle restriktioner på hvilke sider og hvilke robotter der må læses, kan du enten lave en helt tom robots.txt fil, eller angive følgende regel:

User-agent: * 
Disallow:

Stjernen betyder alle og da vi ikke skriver noget under disallow, betyder det, at der ikke er nogen regler. Altså, ingen regler for alle.

Ingen robotter må læse sider

Hvis du gerne vil ekskludere alle robotter fra hele sitet:

User-agent: *
Disallow: /

Her siger vi, at alle robotter ikke få få adgang til alt under /, altså roden af sitet.

Ingen robotter må læse en bestemt mappe

Følgende regel vil fortælle alle robotter, at de ikke må indeksere filer og undermapper til mappen ved navn “hemmeligt”:

User-agent: *
Disallow: /hemmeligt/

Ingen robotter må læse en bestemt undermappe

Følgende regel vil fortælle alle robotter, at de ikke må indeksere filerne i undermappen, til den offentlige mappe, ved navn “hemmeligt/meget_hemmeligt/”:

User-agent: *
Disallow: /hemmeligt/meget_hemmeligt/

Dette kan f.esks. bruges, hvis du har en mappe, som de gerne må kigge i, men én mappe i den mappe som er “off limits”.

Herfra går det lidt hurtigt, du har sikkert forstået essensen…

Ingen robotter må læse en bestemt fil

User-agent: *
Disallow: /privat-fil.php

En bestemt robot nægtes adgang

User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:

Her laver vi to regler. Hvor den ene lukker Google helt ude, mens alle andre gerne må kigge

HTML.dk
På HTML.dk ❤ vi kode. Vi skriver kode, læser kode og drømmer kode... Her på sitet deler vi ud af vores viden, og har du brug for vores hjælp, skal du være velkommen til at kontakte os!