Søgemaskiner (oplæg)

Søgemaskiner

Dette er et kort oplæg om søgemaskiner. Og det er ikke engang ret præcist, for teknisk set er der to slags systemer, der holder styr på informationerne på World Wide Web: Søgemaskiner og kataloger.

Søgemaskiner

En søgemaskine (eng: search engine) er et system, der indekserer et udvalg af det tekstlige indhold på www. Typisk er formålet at indeksere så meget som muligt, men der findes også systemer, der koncentrer sig om særlige typer af indhold – f.eks. sider om filosofi, datalogi, ufo’er osv.
Indekseringen foregår ved at en ”robot” eller en ”crawler”, altså et program, gennemlæser alle de sider den støder på og gemmer indholdet i sin egen database. Derved kan systemet svare hvis en bruger beder den om at vise alle sider med ordet ”teknosofikum”. Når systemet får denne besked kigger det i sin database og opremser de sider hvor ordet indgår. Altså: De sider hvor ordet indgik sidste gang robotten var forbi.
Opremsningen sker efter forskellige kriterier. En banal opremsning kunne f.eks. vise de sider hvor ordet ”teknosofikum” indgik flest gange øverst. Typisk vurderes ”relevans for brugeren” dog efter mere sindrige metoder/algoritmer. Søgemaskinen Google vurderer f.eks. en sides vigtighed efter hvor mange (og hvor vigtige) links siden har til sig. Hvis Jonas’ side om Teknosofikum f.eks. har et link fra www.ku.dk vil Google opfatte siden som forholdsvis vigtig eftersom ret mange (også store) websites linker til www.ku.dk hvis vurdering af at Jonas’ side er relevant derfor tillægges relevans.
Med andre ord: A er vigtig hvis B siger han er vigtig. B er vigtig hvis C siger han er vigtig. Osv.

De fleste søgemaskiner finder nye sider ved at følge links fra sider de kender i forvejen. Ofte er det dog også muligt at tilmelde sin side til en søgemaskine.

Siderne som en søgemaskine har indekseret har altså ikke været tjekket af mennesker. Derfor har det været muligt at snyde visse søgemaskiner til at give en side en favorabel placering (selvom siden måske ikke var ret spændende for særlig mange). Det var særligt nemt på et tidspunkt hvor de fleste søgemaskiner kiggede på websiders ”meta-tags”, information om hvad siden indeholdt placeret før selve websidens indhold, i stedet for at søge en mere objektiv vurdering.
Google metode eliminerer stort set muligheden for fusk, hvilket har bidraget til dens store succes.

Eksempler: www.google.com, www.altavista.com

Kataloger

En anden type systemer går under navnet ”kataloger” (eng: directories). Ofte henvises de dog også til som ’søgemaskiner’. Disse systemer består af menneskeskabte kataloger over siderne på www. De er typisk hierarkisk opbyggede, så man som bruger går fra det generelle til det specifikke (f.eks. Humaniora -> Dansk -> Grammatik -> Det nye Komma). Oftest har mennesker placeret siderne i disse kategorier. Og ofte står mennesker også inde for kvaliteten af siderne. I kataloget www.jubii.dk (der også har en egentlig søgemaskine) lægger man f.eks. vægt på at siderne holder en vis standard og man tjekker dem derfor før man placerer dem i kataloget.
Det mest berømte katalog er www.yahoo.com (Yet Another Hierarchically Organized Oracle).
Et problem ved kataloger er at de valgte kategorier kan være ulogiske for den enkelte bruger. Hvis man er skoleelev kan det være at man mener at ”Det nye Komma” bør ligge under ”lektier” el. lign. Et andet problem er at hele processen med opbygning af hierarkier og tjek af tilmeldte sider er meget krævende og at udviklingen af systemerne derfor ofte går meget langsomt.

Søgning

I kataloger kan man klikke sig vej igennem hierarkierne, men det mest normale er søgning på fritekst. Man skriver altså hvilket/hvilke ord – eller hvilken frase – man gerne vil søge på og så fremkommer systemet med et svar.
Der er ikke fuld enighed blandt søgesystemer om hvilke tegn man anvender ved specielle søgninger, men nedenstående er ofte forekommende:

Søgestreng (eksempel) Forstås som
+eksempel ’eksempel’ skal forekomme
-eksempel ’eksempel’ må ikke forekomme
+studieordning +teknosofikum +endelig
’studieordning’, ’teknosofikum’ og ’studieordning’ skal alle tre forekomme
”tilvalg 2003” –teknosofikum ’tilvalg 2003’ skal forekomme i netop denne rækkefølge i dokumentet og ’teknosofikum’ må ikke forekomme
”A Brief History of the Future” ‘A Brief History of the Future’ skal forekomme i netop denne rækkefølge.