Datoteka robots.txt pohranjena u korijenu vaše web-lokacije reći će web robote poput spiders tražilice koje imenike i datoteke kojima se dopuštaju indeksiranje. Lako je koristiti datoteku robots.txt, ali postoje neke stvari koje treba zapamtiti:
- Blackhat web roboti ignorirat će vašu datoteku robots.txt. Najčešći tipovi su špijunski roboti i roboti koji traže adrese e-pošte za žetvu.
- Neki novi programeri će pisati robote koji ignoriraju datoteku robots.txt. To se obično radi pogrešno.
- Svatko može vidjeti vašu datoteku robots.txt. Oni se uvijek nazivaju robots.txt i uvijek su pohranjeni u korijenu web stranice.
- Konačno, ako netko povezuje datoteku ili direktorij koji je vaša datoteka robots.txt isključena s stranice koja nije isključena datotekom robots.txt, tražilice će je ionako pronaći.
Nemojte koristiti datoteke robots.txt da biste sakrili sve što je važno. Umjesto toga, trebali biste staviti važne informacije iza sigurnih zaporki ili ih ostaviti isključivo s interneta.
Kako koristiti ove uzorke datoteka
Kopirajte tekst iz uzorka koji je najbliži onome što želite i zalijepite ga u datoteku robots.txt. Promijenite robote, imenik i nazive datoteka kako bi odgovarali željenoj konfiguraciji.
Dvije osnovne datoteke robots.txt
Korisnički agent: *Disallow: / Ova datoteka kaže da svaki robot ( Korisnički agent: *) koji pristupi tome treba ignorirati svaku stranicu na web mjestu ( Disallow: /). Korisnički agent: *Onemogući: Ova datoteka kaže da svaki robot ( Korisnički agent: *) koji pristupa toj stranici dopušteno je pregledavati svaku stranicu na web mjestu ( Onemogući:). To možete učiniti tako da ostavite robots.txt datoteku prazno ili ga nemate na svom web mjestu. Korisnički agent: *Disallow: / cgi-bin /Disallow: / temp / Ova datoteka kaže da svaki robot ( Korisnički agent: *) koji pristupa to treba ignorirati direktorije / cgi-bin / and / temp / ( Disallow: / cgi-bin / Disallow: / temp /). Korisnički agent: *Disallow: /jenns-stuff.htmDisallow: /private.php Ova datoteka kaže da svaki robot ( Korisnički agent: *) koji pristupa to treba ignorirati datoteke /ennns-stuff.htm i /private.php ( Disallow: /jenns-stuff.htm Ne dopusti: /private.php). Korisnički agent: Lycos / x.xDisallow: / Ova datoteka kaže da Lycos bot ( Korisnički agent: Lycos / x.x) nije dopušteno pristupiti bilo kojem mjestu na web mjestu ( Korisnički agent: *Disallow: /Korisnički agent: GooglebotOnemogući: Ta datoteka najprije onemogućuje sve robote kao što smo prethodno napravili, a zatim eksplicitno dopuštaju Googlebot ( Korisnički agent: Googlebot) imaju pristup svemu ( Iako je bolje koristiti vrlo uključivu liniju korisnika-agent, kao što je User-agent: *, možete biti što specifičniji koliko želite. Zapamtite da roboti čitaju datoteku u redu. Dakle, ako prvi redovi kažu da su svi roboti blokirani iz svega, a kasnije u datoteci kaže da je svim robotima dopušteno pristup svemu, roboti će imati pristup svemu. Ako niste sigurni jeste li pravilno napisali datoteku robots.txt, pomoću Googleove alata za webmastere možete provjeriti datoteku robots.txt ili napisati novu datoteku robots.txt. Zaštitite određene direktorije iz robota
Zaštitite određene stranice od robota
Sprječavanje određenog robota od pristupa web sučelju
Dopusti samo jedan specifični robot pristup
Kombinirajte višestruke linije da biste dobili točno one izuzeće koje želite