| 
View
 

precisie

Page history last edited by Eric Sieverts 11 years, 11 months ago

open SideBar voor TOC >>

 

4.4     Precisieproblemen

 

In hoofdstuk 3 zijn we al diverse methoden en technieken tegengekomen die tot verbetering van de precisie kunnen leiden. Hier zullen we daar nog eens systematisch naar kijken, waarbij we uitgaan van factoren die de precisie nadelig kunnen beïnvloeden. Een aantal daarvan is het tegendeel van factoren die in de vorige paragraaf zijn genoemd. Dat is niet zo verwonderlijk, want vangst en precisie, zijn een soort communicerende vaten. Aanpassingen van een zoekvraag die goed zijn voor het verbeteren van de precisie zijn vaak slecht voor de vangst en omgekeerd. 

  • Een belangrijke oorzaak van slechte precisie kan zijn dat de zoekvraag nog onvoldoende nauwkeurig gespecificeerd is, doordat nog niet genoeg concepten of vraagelementen gecombineerd zijn. Hoewel analyse van zoekvragen in webzoekmachines een gestage stijging laat zien van het daarin gebruikte aantal zoekwoorden (van gemiddeld 1,1 rond 1997, tot ruim meer dan twee in 2010) zijn veel zoekvragen voor het web in de praktijk toch nog onvoldoende precies gesteld. Een belangrijke remedie voor slechte precisie is dan ook het (in een AND-relatie) toevoegen van een extra, kennelijk essentieel concept of zoekwoord. Zoekmachines die op basis van statistiek suggesties doen voor toe te voegen woorden of begrippen kunnen daarbij soms nuttig zijn. 
  • Een andere belangrijke oorzaak voor slechte precisie is dat we bij een AND-relatie weliswaar eisen dat twee woorden in een zelfde document moeten voorkomen, maar dat dat nog geen garantie is dat tussen die woorden ook de in de vraag bedoelde syntactische relatie bestaat. Om de kans te vergroten dat in gevonden documenten die relatie wel bestaat, kunnen we met nabijheidszoeken eisen dat de woorden dichtbij elkaar staan of kunnen we op een exacte zin zoeken. Bij webzoekmachines is dit iets minder noodzakelijk omdat daar de onderlinge afstand en volgorde van voorkomen van de zoekwoorden in gevonden documenten, een factor is die ook meespeelt bij de relevantieordening. Documenten waarin de gevraagde woorden dicht bij elkaar staan en in dezelfde volgorde als in de zoekvraag scoren toch al wat hoger. 
  • Onjuiste keuze van zoektermen kan ook zorgen voor een slechte precisie. Controleer daartoe of bij de met OR gecombineerde zoekwoorden voor de elementen van de zoekvraag, geen termen voorkomen die aanleiding geven tot teveel ruis, doordat ze (ook) een andere of een te ruime betekenis hebben. 
  • Woorden die meer betekenissen hebben, kunnen aanleiding geven tot het vinden van nietrelevante publicaties. Zeker bij gebruik van een acroniem als zoekterm, moet men hiervoor oppassen. Dergelijke afkortingen blijken vaak veel meer betekenissen te kunnen hebben dan een zoeker zich realiseert. Men kan dan proberen het zoekresultaat te beperken tot documenten waarin de gezochte term alleen maar voorkomt in de gewenste betekenis, door te proberen de zoekvraag zo algemeen mogelijk in te perken op het bedoelde onderwerpsdomein. De Acronymfinder kan in sommige gevallen een nuttig hulpmiddel zijn om erachter te komen of een afkorting niet teveel betekenissen kan hebben, zelfs binnen hetzelfde onderwerpsdomein. 
  • Bij het zoeken in de volledige tekst van documenten (wat webzoekmachines in feite ook doen) worden ook documenten gevonden, waarin eeen zoekterm slechts heel terloops een keer wordt genoemd, zonder dat de publicatie zelfs maar in geringe mate over dat onderwerp gaat. In gevallen waarin dat te nadelige invloed op de precisie heeft, kun je zorgen dat je niet meer in de volledige tekst zoekt, maar alleen in die delen van de informatie waarin de kern van de inhoud wordt samengevat. Daarbij valt te denken aan de titel, trefwoorden, de samenvatting of (bij krantenzoeksystemen) de inleidende alinea - de "lead-paragraph" - waarin de belangrijkste thema's van een krantenartikel worden geïntroduceerd. 

 

 

 

 

Comments (0)

You don't have permission to comment on this page.