| 
View
 

recall

Page history last edited by Eric Sieverts 11 years, 8 months ago

open SideBar voor TOC >>

 

4.3     Recallremmers

 

In hoofdstuk 3 zijn we al diverse methoden en technieken tegengekomen die aan verbetering van de vangst kunnen bijdragen. Hier zullen we die nog eens systematisch langsgaan, waarbij we uitgaan van de factoren die de vangst nadelig kunnen beïnvloeden. 

  • Veel concepten of elementen met AND combineren perkt een zoekvraag goed in, maar het kan ook makkelijk "te" veel worden en maken dat relevante informatie gemist wordt. Het is namelijk onwaarschijnlijk dat in elk relevant document al die elementen gerepresenteerd zijn met de in de zoekvraag gebruikte woorden. Men moet dus terughoudend zijn altijd alle elementen uit de conceptuele analyse in de uiteindelijke zoekactie te verwerken. Het vooraf of achteraf weglaten van een concept (mits niet het centrale concept van de vraag) heeft vrijwel altijd een positief effect op de vangst
  • Zoeken op een exacte zin kan makkelijk een te sterke inperking geven. In de praktijk blijken in teksten vaak nog extra woordjes te kunnen voorkomen tussen de woorden waarvan we verwachten dat ze - als zinnetje - de vaste uidrukking voor een bepaald onderwerp zijn. De documenten waarin dat het geval is, missen we dus als we alleen op die exacte zin zoeken. Wie zoekt op "plastic surgery" mist bijvoorbeeld documenten over "plastic reconstructive surgery" of "plastic cosmetic surgery". Dit kan worden voorkomen door toe te staan dat toch nog een beperkt aantal willekeurige woorden tussen de kernwoorden uit zo'n zoekzinnetje mag voorkomen. Door nabijheidszoeken toe te passen, wordt het zoekresultaat verruimd, vaak zonder dat dat te zeer ten koste gaat van de precisie. Een AND-relatie tussen de betreffende woorden zou vaak wel een sterke verslechtering van de precisie veroorzaken. 
  • Wanneer voor een zoekwoord een onjuiste (of ongebruikelijke) spelling wordt gebruikt, gaat dat uiteraard sterk ten koste van de vangst. Omdat zelfs een fout gespelde zoekterm vaak nog wel enige resultaten oplevert, zal een zoeker een dergelijke fout niet altijd meteen in de gaten hebben. Enig gevoel voor de te verwachten opbrengst van een zoekwoord kan maken dat men hier beter op verdacht is. Welk van de gebruikte zoektermen een potentiële boosdoener is, valt overigens moeilijk te bepalen bij systemen waarbij de totale zoekvraag in één keer ingetikt moet worden, zoals het geval is bij de meeste moderne zoeksystemen (en zeker bij alle webzoekmachines). Een kritische blik op de ingetikte zoekvraag - ook achteraf - is dus altijd nuttig. Systemen die waarschuwingen geven in de trant van "did you mean ...?" kunnen dit wat makkelijker maken. In systemen waar de gebruiker door een alfabetische index van voorkomende woorden (met hun  frequentie) kan bladeren, kan men eventueel zelf tot controle overgaan en kijken welke spellingswijze (kennelijk) correct is en de beste opbrengst geeft. 
  • In veel gevallen zal het voor de relevantie van een document niet uitmaken of een zoekwoord daarin in het enkelvoud of in het meervoud voorkomt, en vaak ook niet of er een zelfstandig naamwoord of een daarvan afgeleid bijvoeglijk naamwoord of werkwoordsvorm aanwezig is. Wie alleen op één woordvorm zoekt zal dus veel relevante informatie kunnen missen. De zoeker moet dus zorgen ook op dergelijke varianten van zoekwoorden te zoeken. In sommige systemen (zoals Google) wordt al automatisch op zogenaamde woordstammen gezocht. In andere gevallen zal de zoeker zelf met een truncatieteken moeten aangeven dat hij die varianten in de zoekactie wil meenemen. Dat laatste kan ook nog tot voordeel hebben dat documenten worden gevonden waarin samenstellingen voorkomen die met het getrunceerde zoekwoord beginnen (en vaak ook relevant kunnen zijn). 
  • Documenten waarin een synoniem van een gebruikt zoekwoord voorkomt, of een daaraan verwant begrip, zijn meestal ook relevant. Die documenten worden echter gemist als die synoniemen niet in de zoekvraag worden meegenomen. Eerder werd al een overzicht gegeven van mogelijke soorten aanvullende zoektermen (synoniemen, verwante termen, acroniemen e.d.) die je in een OR-relatie aan een concept kunt toevoegen. Vrijwel altijd zul je dergelijke termen zelf moeten bedenken. 
  • Wanneer een zoekvraag een vrij algemeen element bevat, kunnen daarbij meestal zeer veel specifiekere woorden worden bedacht, die allemaal deelonderwerpen daarvan representeren. Vaak zijn dat er te veel om die allemaal als zoekterm in te tikken (of zelfs maar te bedenken). De enige manieren om dit vangst-probleem te voorkomen, is óf een dergelijk concept helemaal uit de zoekvraag weg te laten (met gevaar voor slechte precisie), óf te onderzoeken of een mogelijkheid voor generiek zoeken wordt geboden. Bij dat laatste kan het systeem, op basis van een gebruikte thesaurus of classificatie, automatisch zoeken op alle specifiekere begrippen of onderwerpscategorieën.

 

 

Comments (0)

You don't have permission to comment on this page.