un crawler è relativamente semplice, programma automatico, o uno script, che analizza metodicamente o "striscia" attraverso le pagine Internet per creare un indice dei dei dati che sta cercando. Nomi alternativi per un web crawler sono spider web, web robot, bot, crawler e indicizzatore automatico.
Un crawler web può essere usato per molti scopi. Probabilmente l'uso più comune associato al termine è legata ai motori di ricerca. Motori di ricerca utilizzano i crawler web per raccogliere informazioni su ciò che è là fuori su pagine web pubbliche. Il loro scopo primario è quello di raccogliere dati in modo che quando i navigatori Internet immettere un termine di ricerca sul loro sito, possono fornire rapidamente il navigatore con i siti web pertinenti. Quando spider di un motore di ricerca web visita una pagina web it " legge "il testo visibile, i collegamenti ipertestuali, e il contenuto dei vari tag utilizzati nel sito, come la parola meta tag ricchi. Utilizzando le informazioni raccolte dal crawler, un motore di ricerca sarà quindi determinare che cosa il sito è di circa e l'indice delle informazioni. Il sito è poi inserito nel database del motore di ricerca e la sua pagina processo di classificazione.motori di ricerca, tuttavia, non sono gli unici utilizzatori del web crawler. Linguisti possono utilizzare un web crawler di eseguire una analisi testuale, cioè, possono pettine Internet per determinare quali parole sono comunemente usati oggi. I ricercatori di mercato possono utilizzare un web crawler di determinare e valutare le tendenze in un determinato mercato. Ci sono vari usi nefasti del crawler web. Alla fine un crawler web può essere utilizzato da chiunque cercando di raccogliere informazioni su Internet.
Web crawler può operare una sola volta, per esempio per un particolare progetto di tempo, o se il suo scopo è di qualcosa a lungo termine, come avviene con i motori di ricerca, possono essere programmati per rastrellare attraverso Internet periodicamente per determinare se vi sia stato alcun cambiamento significativo. Se un sito si verifica il traffico pesante o difficoltà tecniche, il ragno può essere programmato per notare che e rivedere di nuovo il sito, si spera, dopo i problemi tecnici si sono calmati.Web crawling è un metodo importante per raccolta di dati relativi, e tenere il passo con la rapida espansione, Internet. Una grande quantità di pagine web vengono continuamente aggiunti ogni giorno e l'informazione è in costante mutamento. Un crawler è un modo per i motori di ricerca e ad altri utenti di regolare assicurare che le loro banche dati sono aggiornati.
