Google: Hoe?
- Een zoekmachine linkt woorden die u ingeeft (trefwoorden) met een database die de zoekmachine heeft gebouwd van webpagina's (index).
- De zoekmachine zal dan een lijst met webadressen produceren waarvan het denkt dat ze relevant is met uw zoekopdracht.
Onderdelen van een zoekrobot
- Crawler: zoekrobot-software
- Index: database
- Query Processor: relevantie & ranking
De crawler: Googlebot
- De crawler is een stukje gespecialiseerde software die van link naar link springt, pagina's bezoekt en deze terugstuurt om te laten indexeren (naar de index).
- De crawler (be)zoekt:
- bestaande links
- nieuwe links
- indexeerbare tekst
- De crawler haat hindernissen
- » Hoe "ziet" een crawler een website?
De Index
- De crawler stuurt dus immens veel data naar de Google-servers: de Index
- Voor iedere website (!) zal de index alle (?) pagina's opnemen alsook andere nuttige informatie over die pagina:
- de woorden in die pagina
- de links
- de linktekst
& meta's de talrijke andere parameters
- De informatie in deze index is dusdanig georganiseerd dat trefwoorden gekoppeld worden met bepaalde pagina's.
De Analyse & Ranking
- De analyse = voor welke trefzinnen en waar dient een pagina in de resultaten te komen?
- Google PageRank: Kijkt naar de link op een pagina, de linktekst ervan en de inkomende links van andere website naar die pagina.
- PageRank waarde enkel via Google Toolbar.
- Simplistische formule:
PR(A) = .15 + .85 * PR van inkomende website.
Runtime Index
- Nadat de crawldata geanalyseerd, geindexeerd en PR bepaald is, gaat alles naar de (échte) runtime index.
- Verschillende datacenters over de hele wereld.
- 175.000 computers => meer dan op aarde begin 1975!










