Google: Hoe?

  • Een zoekmachine linkt woorden die u ingeeft (trefwoorden) met een database die de zoekmachine heeft gebouwd van webpagina's (index).

  • De zoekmachine zal dan een lijst met webadressen produceren waarvan het denkt dat ze relevant is met uw zoekopdracht.

Onderdelen van een zoekrobot


  • Crawler: zoekrobot-software
  • Index: database
  • Query Processor: relevantie & ranking
De 3 onderdelen zijn gelijkwaardig in de invloed op de kwaliteit en de snelheid, en verder zijn er nog 100-den factoren die de algemene zoekervaring beinvloeden.



De crawler: Googlebot


  • De crawler is een stukje gespecialiseerde software die van link naar link springt, pagina's bezoekt en deze terugstuurt om te laten indexeren (naar de index).

  • De crawler (be)zoekt:
    • bestaande links
    • nieuwe links
    • indexeerbare tekst

  • De crawler haat hindernissen

  • » Hoe "ziet" een crawler een website?

De Index


  • De crawler stuurt dus immens veel data naar de Google-servers: de Index

  • Voor iedere website (!) zal de index alle (?) pagina's opnemen alsook andere nuttige informatie over die pagina:
    • de woorden in die pagina
    • de links
    • de linktekst
    • & meta'sde talrijke andere parameters

  • De informatie in deze index is dusdanig georganiseerd dat trefwoorden gekoppeld worden met bepaalde pagina's.

De Analyse & Ranking


  • De analyse = voor welke trefzinnen en waar dient een pagina in de resultaten te komen?

  • Google PageRank: Kijkt naar de link op een pagina, de linktekst ervan en de inkomende links van andere website naar die pagina.

  • PageRank waarde enkel via Google Toolbar.

  • Simplistische formule:

    PR(A) = .15 + .85 * PR van inkomende website.

Runtime Index


  • Nadat de crawldata geanalyseerd, geindexeerd en PR bepaald is, gaat alles naar de (échte) runtime index.

  • Verschillende datacenters over de hele wereld.

  • 175.000 computers => meer dan op aarde begin 1975!