Twoja strefa:

login: hasło:
Z Wikipedii, wolnej encyklopedii
(Przekierowano z Robots.txt)
Skocz do: nawigacji, szukaj

Robots Exclusion Protocol – mechanizm informowania automatów o tym, czego nie powinny robić na stronie WWW.

Dotyczy to przede wszystkim działających automatycznie programów indeksujących serwisy WWW dla wyszukiwarek, które podążając za hiperłączami indeksują całą zawartość danego serwisu do katalogu wyszukiwarki, ale również programów innego typu, np. automatycznych mirrorów.

Robots Exclusion Protocol jest systemem honorowym i jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. System ten jest generalnie przestrzegany, gdyż w niczyim interesie nie leży łamanie jego zasad.

Spis treści

Powody stosowania

  • Czasem pobranie jakiejś strony powoduje wywołanie jakiejś akcji, np. oddanie głosu w sondażu (ściśle interpretując standardy, wszystkie tego typu akcje powinny odbywać się za pomocą formularzy i metody POST, nie linków i GET, nie jest to jednak powszechnie przestrzegane).
  • Niechęć autora do tego, żeby dana strona była indeksowana w wyszukiwarkach, gdyż nie wnosi ona żadnej nowej treści do ich bazy. Tak jest m.in. ze stronami edycji na Wikipedii, np.:
http://pl.wikipedia.org/w/wiki.phtml?title=Robots_Exclusion_Protocol&action=edit
  • Duże obciążenie serwera w związku z generacją strony oraz zwykłą niechęć do tego, żeby była ona w bazach wyszukiwarek. Niektóre strony internetowe z różnych przyczyn wolą pozostać poza wyszukiwarkami, lub pozwalają na indeksowanie tylko swojej strony głównej.

Mechanizmy

Istnieją dwa mechanizmy Robots Exclusion Protocol: robots.txt i znaczniki meta.

robots.txt

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera. Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

  • komentarzy zaczętych od #
  • rekordów oddzielonych pustymi liniami
    • rekord składa się z pól Nazwa: Wartość
      • jednego pola User-agent
      • pól Disallow

Pole User-agent oznacza jakich programów dany rekord dotyczy. Pola Disallow to prefiksy URL-i, których ściągać nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

Niektóre boty rozumieją też inne pola, np. ograniczające ilość pobrań ze strony na minutę.

Przykłady

Cała witryna będzie indeksowana przez roboty (tak jakby nie było pliku robots.txt):

User-agent: *
Disallow:

Cała witryna nie będzie indeksowana:

User-agent: *
Disallow: /

Indeksowane nie będą tylko foldery "images" i "private" w katalogu głównym strony:

User-agent: *
Disallow: /images/
Disallow: /private/

Indeksowany nie będzie tylko plik "file" w katalogu "directory":

User-agent: *
Disallow: /directory/file.html

Znaczniki meta

Jest też możliwe podawanie dyrektyw dla robotów w znacznikach HTML: <meta name="robots" content="X">, gdzie X to:

  • noindex – nie indeksuj strony
  • nofollow – nie podążaj za linkami na stronie
  • noarchive – nie archiwizuj strony w cache

X może być złożone z jednego, dwóch lub trzech powyższych słów rozdzielonych przecinkiem (np. noindex,nofollow,noarchive), przy czym dopuszczalne jest też użycie słowa none jako odpowiednika noindex,nofollow.

Znaczniki meta wymagają analizy HTML-a, więc są uznawane o wiele rzadziej niż robots.txt

nauka jazdy opole szkolenia do prac na wysokościach akumulatory żelowe amortyzatory pożyczka na dowód pożyczki na dowód pożyczka na dowód pożyczki na dowód pożyczka na dowód pożyczki na dowód

Co nowego?


 Dziecko a zwierzak w domu Próchnica butelkowa (1 odpowiedz) Słodkie pokarmy i napoje podawane dziecku przez smoczek są głównymi winowajcami powstawania próchnicy butelkowej. Przyczynia się do niej też brak odpowiedniej higieny. Konflikt serologiczny (brak odpowiedzi) Żeby uniknąć negatywnych konsekwencji konfliktu serologicznego, każda kobieta powinna najpóźniej na początku ciąży wykonać badanie własnej grupy krwi, a jeśli to konieczne, także grupy krwi ojca dziecka. Tapety z dziecięcych marzeń Ponad 300 gotowych pomysłów na dekorację ścian w pokoju dziecięcym. Wszystkie autorstwa kanadyjskiej firmy Blue Mountain, która zaprezentowała szeroki wybór tapet i bordiur dla maluchów i nastolatków, dla dziewczynek i chłopców. Więcej na http://www.otopr.pl/pr/tapety-z-dzieciecych-marzen,art,16285.html 2010-08-10 09:36:00.00 Witaj w domu, kochanie Jaki jesteś noworodku? eBobas.pl (11 odpowiedzi) Po co jeszcze jeden portal dla rodziców? – można byłoby zapytać. Tyle w sieci stron dla mam, o dzieciach, o ciąży, o pielęgnacji, zdrowiu i wychowaniu maluchów. Tyle artykułów już napisano i przeczytano, tyle dyskusji rozgorzało na forach, tyle utworzono blogów i galerii… Owies - co o nim wiesz? Avena sativa L. z rodziny wiechlinowatych, dziko rosnąca w Azji Środkowej oraz w basenie Morza Śródziemnego - to skomplikowany opis tak popularnego u nas owsa, z którego wytwarza się jeszcze bardziej popularne płatki owsiane, mające dziś dziesiątki zastosowań. Więcej na http://www.otopr.pl/pr/owies---co-o-nim-wiesz,art,16295.html 2010-08-10 12:02:00.00 każdy pojazd się różni Wakacyjna refleksja nad zdrowiem dzieci W czasie urlopu mamy możliwość uważnego obserwowania naszych dzieci, przyglądania się ich rozwojowi fizycznemu. To dobry moment na chwilę refleksji na temat naszej codziennej rodzicielskiej troski. To także idealny czas na poznawanie ich pasji i jej rozwijanie. Więcej na http://www.otopr.pl/pr/wakacyjna-refleksja-nad-zdrowiem-dzieci,art,16294.html 2010-08-10 11:56:00.00