zoekmethoden


3.3      Zoekmethoden

 

Weten welke zoekmogelijkheden de meeste zoeksystemen bieden is nog maar een eerste stap op weg naar de uiteindelijk toe te passen zoekmethoden. Daarbij gaat het er om hoe je uiteindelijk concreet je zoekvraag gaat aanpakken. Hoe je aan zoekwoorden komt, hoe je die zoekwoorden combineert, welke verdere zoekmogelijkheden je daarbij toepast, hoe je je zoekvraag aanpast op basis van de resultaten die je in eerste instantie gekregen hebt, enzovoort. Op die aspecten gaan we in deze paragraaf nader in.

 

3.3.1    Vraaganalyse en zoekwoorden

Voordat je metterdaad gaat zoeken, dient je eerst de zoekvraag goed te analyseren. Soms heb je zelf al een preciezere vraagafbakening gemaakt, waarin je invalshoeken en nadere specificaties van je onderwerp hebt bepaald (zie paragraaf 3.1). Anders moet je de omschrijving van je zoekprobleem alsnog ontleden in de inhoudelijke componenten waaruit dat is opgebouwd.
Stel dat je iets wilt weten over “de markt voor kranten op internet”. Aan dit voorbeeld, zijn tamelijk eenvoudig drie aspecten te onderscheiden. Het gaat over “kranten” en dan specifiek op “internet”, waarbij het alleen over de “markt” voor die kranten moet gaan. In plaats van over aspecten, wordt ook wel gesproken over de elementen, facetten of concepten waaruit de zoekvraag bestaat. Men noemt dit daarom ook wel een “conceptuele analyse”. Na goed lezen van de omschrijving van het zoekprobleem is het, met wat gezond verstand en enig analytisch vermogen, voor de meeste vragen niet zo moeilijk om een dergelijke analyse te maken. Gemiddeld zullen er in de meeste gevallen drie van dergelijke concepten onderscheiden worden. Twee is wel een absoluut minimum, meer dan vier zal slechts in uitzonderlijk egevallen nuttig (en nodig) zijn.


Behalve deze inhoudelijke analyse van het probleem zul je ook nog moeten onderzoeken of er meer formele randvoorwaarden zijn. Daarbij kun je denken aan:

Ook dat zijn namelijk allemaal elementen die in de uiteindelijke uitwerking van de zoekvraag op enigerlei wijze moeten worden meegenomen.


In dit stadium is het ook al nuttig om over geschikte zoekwoorden na te denken. Zijn de woorden waarmee je de concepten hebt omschreven al voldoende specifiek, niet te algemeen en niet te specialistisch. Je kunt daarbij ook al denken aan alternatieven of synoniemen. Als je ook informatie in andere talen zoekt, horen daarbij ook woorden die je in die talen zou gebruiken voor de betreffende concepten. Met webzoekmachines zul je namelijk alleen Engelstalige informatie kunnen vinden wanneer je ook Engelse zoektermen gebruikt. Voor databases waarin alle informatie (ook oorspronkelijk Nederlands- of Spaans-talige) standaard in het Engels is beschreven, zul je in elk geval ook Engelse termen moeten bedenken.

 

Mogelijke soorten zoekwoorden waaraan je kunt denken zijn:

Deze zoekwoorden zul je vooral bij de in de volgende paragraaf te bespreken bouwsteenmethode gaan gebruiken.

 

3.3.2    Bouwsteenmethode

Een veel gebruikte aanpak van zoekvragen komt direct voort uit het conceptueel analyseren van de vragen. De daarin onderscheiden concepten worden dan beschouwd als de bouwstenen waarmee de zoekvraag wordt opgebouwd. Vandaar de benaming “bouwsteenmethode”. Deze bouwsteenmethode berust sterk op de mogelijkheid Booleaanse te kunnen zoeken.
Voor elke bouwsteen (dus voor elk concept) bedenk je in de voorbereiding op het echte zoekproces welke woorden daarvoor karakteristiek zijn. Het zijn de woorden waarvan te verwachten is, dat documenten waarin dat woord voorkomt, zeer waarschijnlijk aandacht besteden aan dat concept. Voor het concept “kranten” is dat in onderstaand schema al voor een deel uitgevoerd. Daarbij beperken we ons even tot alleen Nederlandse woorden. Uiteraard komt het woord krant in aanmerking, maar ook documenten waarin het synoniem dagblad voorkomt, zullen over kranten gaan. Datzelfde geldt voor woorden als ochtendblad of avondblad, ook al zijn dat in feite specifiekere begrippen voor bepaalde soorten dagbladen. Voor een uitputtend onderzoek kun je zelfs nog een stapje verder gaan, want ook documenten waarin
Volkskrant, Telegraaf of NRC-Handelsblad ter sprake komen, gaan over kranten (ook als de woorden “krant” of “dagblad” daar toevallig niet in zouden voorkomen). Dus ook die namen – en namen van andere kranten – komen in principe als aanvullende zoektermen in aanmerking.
Bij elk van de zo verzamelde termen moet ook nog worden bedacht of het meervoud, andere woordvormen, zoals werkwoorden, vervoegingen en verbuigingen daarvan en samenstellingen ook in de vraag moeten worden meegenomen. In veel gevallen kan dat eenvoudig worden afgedaan met een truncatie. Maar bij zoeksystemen waar dat technisch niet mogelijk is, moeten alle relevante varianten echt apart worden ingetikt. In onderstaand voorbeeld is voor de overzichtelijkheid wel gewoon met een truncatieteken gewerkt. De zo verzamelde zoekwoorden voor een vraagconcept worden uiteindelijk met de Booleaanse OR-operator gecombineerd, om alles wat maar enigszins over kranten gaat bij elkaar te krijgen.
Op dezelfde manier wordt te werk gegaan met de andere vraagconcepten. Het nogal brede begrip “markt” is hieronder nog niet uitputtend uitgewerkt. Wel zijn woorden die iets te maken hebben met concurrentie daar als extra termen toegevoegd. Dit als voorbeeld dat je soms ook moet denken aan woorden die formeel geen synoniem zijn van je oorspronkelijke zoekwoord, maar die binnen het kader van je vraagstelling toch karakteristiek zijn voor dat aspect van je zoekvraag.
De resultaten van de bouwstenen worden vervolgens met AND gecombineerd. Dat heeft dus tot gevolg dat je alleen die documenten overhoudt, waarin uit elk van deze rijtjes woorden op zijn minst één woord voorkomt, zodat elk van je drie concepten in het document vertegenwoordigd is.


Mogelijke uitwerking van de zoekvraag “de markt voor kranten op internet”,
beperkt tot alleen Nederlandstalige zoektermen

 

In systemen waar je een zoekvraag in één keer moet opgeven, luidt die dan
 

(krant* OR dagblad* OR ochtendblad* OR avondblad*) AND (internet OR web OR www OR website*) AND (markt OR concurrent*)


In een systeem waar de vraag stapje voor stapje kan worden opgebouwd met resultaatsets, wordt dit:

    #1    krant* OR dagblad* OR ochtendblad* OR avondblad*
    #2    internet OR web OR www OR website*
    #3    markt OR concurrent*
    #4    #1 AND #2 AND #3

 

3.3.3    Best match zoeken

De bouwsteenmethode is een heel systematische en overzichtelijke methode, waarmee je vragen heel precies kunt specificeren. Toch is hij niet voor elke situatie geschikt. Niet bij elke vraag is het zo eenvoudig hem op zo'n conceptueel analytische manier te ontleden. En ook zal niet elke “zoeker” zal van nature zo’n conceptueel-analytische denkwijze hanteren. In dergelijke gevallen is toepassing van de in paragraaf 3.2.1 beschreven techniek van “best match” zoeken een goed alternatief. Die levert dan bijna altijd wel enige relevante resultaten op.
Over het algemeen werkt deze methode beter naarmate je meer en specifiekere zoekwoorden intikt. Wel zal het dan soms nodig zijn om, in plaats van op all of the words, te zoeken op any (of at least one) of the words. Een precieze ordening van je zoekwoorden over drie of vier basisconcepten is daarbij niet nodig. Ze kunnen gewoon achter elkaar worden ingetikt.
Anderzijds is het moeilijk om met deze zoekmethode in één keer een tamelijk volledig overzicht van relevante informatie te krijgen. Daarvoor zul je meestal allerlei verschillende reeksen woorden moeten uitproberen, met daarin telkens andere synoniemen van je oorspronkelijke zoekwoorden. Bij “pure” toepassing van deze methode kun je immers niet aangeven dat bepaalde woorden met OR gecombineerd moeten worden, omdat het synoniemen zijn. In de praktijk blijkt dit, vooral bij webzoekmachines, gelukkig wel vaak mogelijk, zoals onderstaand “advanced” zoekscherm van Google illustreert.


Voorbeeld van “best match” zoekactie waarbij toch rekening wordt gehouden met

het combineren met één van de synoniemen “krant, kranten, dagblad, dagbladen”.

 

In feite is deze zoekactie equivalent met de Booleaanse combinatie

    web AND concurrentie AND (krant OR kranten OR dagblad OR dagbladen)

Nadeel van de “best match” methode is ook dat hij (zeker voor gebruikers die wel heel conceptueel denken) wat ondoorzichtiger is en dat het wat moeilijker is om hem heel gestructureerd en planmatig toe te passen. Anderzijds is een groot voordeel van deze methode –zeker bij zoeken in grote informatiecollecties zoals het “hele” web– dat het systeem in feite een voorselectie voor de gebruiker maakt. Bij 17235 zoekresultaten, zullen gebruikers namelijk toch nooit meer dan hooguit de eerste twintig of dertig daarvan goed kunnen en willen bekijken, zodat het van belang is dat de belangrijkste en meest relevante bovenaan de lijst staan. Daarvoor moeten dan dus heel goede technieken voor relevance ranking worden toegepast. De daarbij meest in aanmerking genomen factoren hebben we al in paragraaf 3.2.1 genoemd.

3.3.4    Uitbreiden van zoekresultaten

Een wezenlijk aspect van digitale zoekacties is dat zoekvragen zo makkelijk kunnen worden aangepast en gevarieerd. Meestal gebeuren dat soort aanpassingen op basis van een beoordeling van al verkregen resultaten. Soms zal die beoordeling heel oppervlakkig gebeuren; je ziet al in één oogopslag dat je helemaal fout zit en het anders moet aanpakken. In andere gevallen zul je de gevonden resultaten veel zorgvuldiger bekijken, bijvoorbeeld om te zien of die je op ideeën brengen om andere, betere zoekwoorden te gebruiken.
Wanneer je zoekt in collecties die al tamelijk gespecialiseerd zijn en betrekkelijk klein, zeker in vergelijking met het hele internet, zul je vaak de behoefte hebben je zoekresultaat uit te breiden. Ondanks de goede voorbereiding van je zoekvraag, heb je het idee dat er beslist meer en misschien ook nog wel betere informatie te vinden moet zijn. En zelfs bij gebruik van een webzoekmachine bestaat die behoefte nog vaak. We zullen hier een aantal verschillende manieren bekijken waarop je dat kunt doen.

De eenvoudigste manier om het zoekresultaat bij de bouwsteenmethode te vergroten, is om een concept helemaal weg te laten uit je zoekvraag. Dat is natuurlijk gevaarlijk, want je had niet voor niets vooraf een conceptuele analyse gemaakt. Een belangrijk aspect daaruit weglaten, leidt er vaak toe dat veel te veel van wat je dan vindt helemaal niet relevant is. Toch komt het nogal eens voor dat een bepaald concept bij nader inzien overbodig blijkt. Het kan zijn dat het eigenlijk al impliciet besloten ligt in de rest van je zoekvraag, of dat de gespecialiseerde collectie waarin je zoekt, toch alleen maar documenten op dat betreffende onderwerpsterrein bevat. Als je voor de krantenzoekvraag uit paragraaf 3.3.2 een zoekactie uitvoert in een database met alleen marketinginformatie, zul je de bouwsteen voor het concept "markt" waarschijnlijk straffeloos kunnen weglaten. De relevantie van zo gevonden documenten zal daardoor nauwelijks nadelig beïnvloedt worden, omdat bijna alles wat in die database zit, al met markt-aspecten te maken heeft, ook de documenten waarin jouw oorspronkelijke zoekwoorden markt of concurrentie niet expliciet voorkomen. Bij een best match zoekactie zal het weglaten van een zoekwoord over het algemeen op dezelfde manier tot een uitbreiding van het zoekresultaat kunnen leiden.

Bij de voorgaande methode hoefde je nog niet zo erg naar je zoekresultaat te kijken, al kan dat soms wel helpen om te bedenken welk concept je zou kunnen weglaten. Bij de volgende manieren is dat zoekresultaat wel steeds het uitgangspunt. Je zou ze daarom allemaal kunnen karakteriseren met de omschrijving "sneeuwbal-methode". Je hebt al wat gevonden en op basis daarvan vind je nog meer.

Bij het eerste type sneeuwbal probeer je aan al gevonden resultaten ideeën te ontlenen voor extra zoektermen. Als je bij de voorbereiding van je zoekvraag bijvoorbeeld nog niet had bedacht dat ochtendbladen en avondbladen ook mogelijke zoektermen zijn voor het concept kranten, dan kun je alsnog op dat idee gebracht worden doordat in de documenten die je met de zoektermen krant of dagblad vindt, toevallig ook deze woorden blijken voor te komen. Zo worden de bouwstenen dus achteraf aangevuld met woorden die je zelf nog niet bedacht had. Zo kun je echte synoniemen tegenkomen, of specifiekere deelbegrippen (zoals die twee specifieke types dagbladen), of de namen van specifieke voorbeelden (zoals namen van bepaalde kranten), of gespecialiseerd jargon wat je zelf eigenlijk niet kende. In sommige gevallen zal het ook een woord zijn dat bij nader veel beter is dan een eerder gebruikt zoekwoord en ter vervanging daarvan kan dienen. Zorg hierbij wel dat je in je oorspronkelijke zoekschema - het tabelletje met zoekwoorden voor je bouwstenen -  vastlegt hoe je dat schema successievelijk uitbreidt. Dat dwingt je ook voor elke nieuwe zoekterm te bedenken bij welk concept of bouwsteen het thuishoort, zodat je het op de goede manier in de OR- en AND-combinaties verwerkt. Op een vaak wat minder gestructureerde manier, kun je deze techniek in principe ook toepassen bij een best match zoekactie.

Een tweede type sneeuwbal is vrijwel alleen toe te passen wanneer een zoekactie boeken of artikelen heeft opgeleverd, waar in de gevonden resultaten zichtbaar is wie de auteurs daarvan zijn. Als je daarbij een bijzonder belangwekkende of relevante publicatie hebt gevonden, kun je kijken of dezelfde auteur nog meer heeft geschreven over dat onderwerp of over verwante thema's, door simpelweg alleen op die auteursnaam verder te zoeken. Op dezelfde manier kun je ook instituten, organisaties of bedrijven op het spoor komen die voor jouw onderwerp belangrijk zijn en op hun website wellicht nog meer en andere informatie daarover hebben staan.

Een derde type sneeuwbal is weer heel algemeen toepasbaar. Veel artikelen bevatten literatuurreferenties die verwijzen naar andere, al eerder verschenen publicaties, waarop wordt voortgeborduurd, die worden tegengesproken of waarvan anderszins gebruik wordt gemaakt. Die zullen dus altijd een relatie met het oorspronkelijke onderwerp hebben, zodat het nuttig kan zijn om die ook op te sporen. Dat kan meestal op basis van in de verwijzing vermelde gegevens over auteur, titel en vindplaats. Dat worden dan dus "known-item searches". Bij gevonden webpagina's gaat dit meestal veel makkelijker. Daarin komen namelijk hyperlinks voor, waarvan de functie vaak vergelijkbaar is met die van literatuurreferenties in artikelen. Dergelijke links hoef je alleen aan te klikken om op die andere gerelateerde webpagina's terecht te komen.

Een vierde type sneeuwbal tenslotte is het omgekeerde hiervan. Als je een relevante publicatie hebt, dan zullen ook latere publicaties die daaraan refereren, waarschijnlijk relevant zijn. Alleen is aan die uitgangspublicatie zelf niet te zien welke dat zijn, want de auteur daarvan kon uiteraard niet in de toekomst kijken, wat later nog met zijn ideeën gedaan zou worden. Daarvoor heb je dus speciale hulpmiddelen nodig. Die bestaan vrijwel alleen voor wetenschappelijke en vakpublicaties. De belangrijkste daarvan zijn de al ruim 50 jaar bestaande Citation Indexes op het gebied van de alfa-, beta- en gamma-wetenschappen, de heel recente Scopus-database van Reed-Elsevier en het gratis wetenschappelijke zoeksysteem Google Scholar. Wanneer je in Google Scholar een zoekactie hebt gedaan, staat bij elke gevonden publicatie vermeld hoe vaak die door andere in het systeem aanwezige publicaties wordt "geciteerd" ("cited by" betreft hier literatuurverwijzingen; het betekent niet dat er letterlijk geciteerd is). Die citatie-vermelding is een link die je alleen hoeft aan te klikken om een lijstje te krijgen van (recentere) publicaties die naar het uitgangsverhaal verwijzen.
Ook bij gewone webpagina's zijn deze omgekeerde relaties te volgen met behulp van een aantal van de bekende zoekmachines. Met de zoekvraag

    link:http://www.website.org/directory/interessant.html

vind je webpagina's die een link bevatten naar het daar vermelde URL. Als dat het URL van een tamelijk gespecialiseerde pagina is, zal daar ook vaak een inhoudelijke relatie tussen zijn. Bij onder meer Yahoo, AltaVista en Google is deze zoekmethode mogelijk.

 

3.3.5    Inperken van zoekresultaten

Bij het doen van zoekacties bestaat ook heel frequent de behoefte om zoekresultaten in te perken. Die behoefte kan domweg voortkomen uit het feit dat je zo ontzettend veel hebt gevonden. Als een zoeksysteem die 17235 resultaten dan niet op relevantie ordent, zul je zelf een zinnige inperking moeten maken. Het selecteren van de vijftig meest recente is natuurlijk een heel pragmatische aanpak, maar er zijn ook meer inhoudelijke manieren. In andere situaties zal die behoefte vooral worden ingegeven door een kwaliteitsoordeel: veel te veel van wat je hebt gevonden, blijkt onvoldoende - of zelfs helemaal niet - relevant voor je onderzoeksvraag. Bij het inperken zullen dan zeker inhoudelijke argumenten moeten meespelen. Inperkingen zullen vaak al onmiddellijk op de allereerste zoekresultaten worden toegepast, maar ook nadat een zoekactie is uitgebreid zullen daar vaak weer inperkingen op volgen.

Inhoudelijke inperkingen kunnen uiteraard worden uitgevoerd door iets te veranderen in de oorspronkelijk gebruikte zoekwoorden. Als je aan de zoekresultaten ziet dat je vraag eigenlijk nog onvoldoende is gespecificeerd of afgebakend, kun je - in een bouwsteen-aanpak - proberen een extra concept aan de zoekvraag toe te voegen. Een AND-relatie met dat concept zal het zoekresultaat meestal flink inperken naar aantal en de relevantie ervan sterk verbeteren. Bij "best match" zoeken heeft toevoegen van één extra zoekwoord meestal al het gewenste effect. Het bedenken van een in aanmerking komend extra concept of zoekwoord kan voortkomen uit een nadere analyse van de zoekvraag zelf, maar ook hiervoor kan een zorgvuldige scan van de gevonden resultaten je op ideeën brengen. Bij de eerdere krantenvraag zou je je op grond daarvan bijvoorbeeld kunnen realiseren dat het er eigenlijk vooral om gaat hoe de krant ook op internet interessant kan zijn voor potentiële adverteerders.
Er zijn ook zoeksystemen, bijvoorbeeld de webzoekmachine Ask, die zelf al met suggesties komen, waarmee je het zoekresultaat zou kunnen inperken. Dat gebeurt vaak op basis van een statistische analyse van in je zoekresultaat voorkomende woorden. Ook eerder door andere gebruikers gestelde preciezere zoekvragen worden wel als bron daarvoor gebruikt.
Behalve deze manier, waarbij je preciezer specificeert waar de te vinden informatie WEL over moet gaan, kun je natuurlijk ook aangeven waar het beslist NIET over moet gaan. Dat kan door woorden met de NOT-operator uit te sluiten. Dat uitsluiten van termen moet wel met enige voorzichtigheid gebeuren, omdat je daarmee ongewild juist ook relevante informatie kunt kwijtraken. Als je bij de eerdere krantenzoekvraag bijvoorbeeld niet geïnteresseerd bent in de gratis bladen Metro en Spits, is het toch niet verstandig die met NOT uit te sluiten. Je raakt dan namelijk ook alle publicaties kwijt waarin de invloed van die gratis bladen op de markt voor de gewone kranten aan de orde komt.
Bij de bouwsteenmethode kun je het zoekresultaat ook inperken en verbeteren zonder een extra concept toe te voegen of termen met NOT uit te sluiten. Als je goed naar je zoekresultaat kijkt, blijkt soms dat het vooral een bepaalde term uit één van de bouwstenen is, die aanleiding geeft tot veel ongewenste resultaten. Dat kan zijn omdat het een veel te algemeen woord is of omdat het te vaak in een niet bedoelde betekenis wordt gebruikt. In de krantenzoekactie zou bijvoorbeeld kunnen blijken dat in de "markt"-bouwsteen het woord "markt" zelf erg vaak wordt gebruikt zonder dat echt de markt voor het uitgeven van kranten wordt bedoeld. Dan is het raadzaam dat woord alsnog uit de OR-relatie van die bouwsteen weg te laten.

Andere manieren van inperken vallen meer onder de zoektechniek. Door je zoekactie te beperken tot alleen woorden uit titels van publicaties of tot trefwoorden waarmee publicaties gekarakteriseerd zijn, wordt je zoekresultaat sterk ingeperkt (zie 3.2.4). Daarbij zal de relevantie zeker verbeteren, omdat publicaties waar je zoekwoorden in de titel voorkomen of waaraan die woorden bewust als trefwoord zijn toegevoegd, een veel grotere kans hebben dat onderwerp echt als centraal thema te hebben.
Als een deel van je zoekwoorden in de praktijk meestal als vaste uitdrukking zal voorkomen, kun je ook op "exacte zinnen" zoeken. Er blijven dan alleen resultaten over waar de gevraagde woorden exact in de ingetikte volgorde voorkomen, zonder andere woorden ertussen. Dat is dus een drastische extra eis. Bij webzoekmachines doe je dat vrijwel altijd door het gewenste zinnetje tussen aanhalingstekens te zetten. Bij toepassing van de bouwsteenmethode is dit soms nogal lastig, omdat er zo veel mogelijke combinaties kunnen zijn van de in elke bouwsteen verzamelde woorden. In die gevallen is het een voordeel wanneer in een zoeksysteem de in paragraaf 3.2.2 besproken afstandsoperatoren gebruikt kunnen worden. In zo'n systeem zou de krantenzoekvraag bijvoorbeeld kunnen luiden

(krant* OR dagblad* OR ochtendblad* OR avondblad*) NEAR (internet OR web OR www OR website*) NEAR (markt OR concurrent*)

om aan te geven dat woorden uit de drie bouwstenen niet alleen samen moeten voorkomen, maar ook dicht bij elkaar in de buurt moeten staan. Dat is veel preciezer dan met AND, maar al weer een stuk minder drastisch dan de eis van exacte zinnetjes.
Verder moet een zoekvraag vaak nog worden ingeperkt op mogelijke formele kenmerken die in paragraaf 3.3.1 als mogelijke randvoorwaarden werden genoemd: recentheid, taal, soort publicatie en dergelijke. Ook daarmee beperk je de grootte van het resultaat en focus je beter op datgene waarnaar je op zoek bent.