lub inaczej web crawler
jest to internetowy program zbierających informacje o strukturach i
stronach umieszczonych w sieci World Wide Web w celu zindeksowania ich.
Roboty internetowe najczęściej służą do dodawania treści do wyszukiwarek
internetowych, sprawdzania kodów strony WWW, zbierania informacji o
stronach w celu odpowiedniego ich zaindeksowania, monitorowania zmian
wprowadzanych na nich, a niekiedy także tworzą mirrory stron, czyli ich
kopie. Obecnie głównym wyznacznikiem pozycji strony WWW w wynikach
wyszukiwania jest właśnie wskaźnik ruchu generowany przez roboty
internetowe.
Jednym z najpopularniejszych i najbardziej rozwiniętych robotów indeksujących jest Googlebot
używany przez Google, który indeksuje strony poprzez przechodzenie za
pomocą odnośników pomiędzy nimi. Webmaster może udostępnić informacje o
swojej stronie internetowej przy użyciu pliku robots.txt.
Metody działania Googlebota oparte są na dwóch technikach – na deep
crawl oraz fresh crawl. Pierwsza z nich polega na przechodzeniu na każdy
odnośnik zawarty w oglądanych przez siebie stronach WWW i dodawaniu
wszystkich ich do indeksu. Obecnie Googlebot wykonuje ten proces co
około 30 dni. Fresh crawl polega natomiast na odwiedzaniu stron, które
są często aktualizowane, w celu zaindeksowania i odświeżenia zawartości
stron WWW. Googlebot pomimo swojego technicznego zaawansowania niestety
obciąża transfer na stronach, co może powodować wyczerpanie limitu
transferu i ich zawieszenie. Dlatego też Google umożliwia dopasowanie
odwiedzić Googlebota na stronach.
mocno inspirujący wpis!
OdpowiedzUsuńniezle
OdpowiedzUsuńciekawe
OdpowiedzUsuń