Tillbaka till start   Kapitel 9   Kapitel 11  

Miguel Benito

 

KAPITEL 10

 

INDEXERING

 

 

 

Vid registreringen av dokument analyserar man dokumen­tet dels efter for­mella kriteri­er såsom författare, ti­tel, serietillhörighet,  o.s­.v., dels efter ämnesmäs­si­ga krite­rier. I det första fallet talar man om åter­vin­ning av dokument, i det andra om återvinning av in­for­ma­tion.

 

Man kan beskriva dokumentets innehåll med hjälp av sär­skilda koder eller med hjälp av ämnesord, sk deskripto­rer, indexeringstermer.

 

När man använder sig av koder för att återge ämnena ta­lar man om klassifi­ka­tionssystem, som SAB, UDK, LC. När man använder sig av ämnesord talar man om indexeringssys­tem. Dessa be­lyser olika aspekter och ger enskilt eller i kom­bination med var­an­dra en ämnesbeskriv­ning av doku­mentet.

 

Definition

 

Hans H. Wellisch (1991) beskriver ingående de olika betydelser or­det "index" har fått, samt förklarar or­dets ety­molo­giska ursprung. I detta sammanhang be­tyder index och indexering att få innehållet i ett dokument till­gängligt genom att skriva ut namn och äm­nesord i en bestämd ordning, med en indikation om var i dokumentet eller i vilket dokument dessa termer behandlas.

 

Historik

 

Indexering är, på samma sätt som klassifikation, inget nytt som börjat tilläm­pas på senare år, utan den har sina rötter långt till­baka i tiden. Redan i Alex­an­dria hade man för vana att skriva annotationer till innehållet i papyrusrullarna. Man började på ett tidigt stadium skriva kapi­tel­rubriker i böcker­na, eller en kort sam­man­fatt­ning, som i praktiken inte är något an­nat än en form av indexe­ring. De rubriker man an­vänder i mar­gina­len i böck­erna är också de en form av in­dexe­ring över bokens in­ne­håll. En annan form av indexering är rub­ri­kerna överst på boksidor­na. De hjälper ju lä­sar­na att snabbt hitta den infor­mation man är intres­serad av. Det var under med­elti­den i samband med bil­dan­det av uni­ver­si­tet runt om i Europa som be­hovet av att in­dexera ökade och då man för för­sta gången började använda sig av den alfabetiska ordningen. Under 17­00­‑talet börjar man an­vända sig av ämne­sordsindex i större ut­sträc­kning. Men det är under 1­800‑ta­lets senare del man fin­ner en kla­rare sys­te­ma­tik.

 

Olika index

 

Konkordans

 

Ord‑ och namnindex (konkordans) är ett index till de ord och namn som en för­fatta­re använder i en bestämd bok. Det ger i många fall viktig information om bo­kens in­nehåll. Särskilt använd­bara är de för ling­vister. Bibelkonkordans är ett bra exempel på detta.

 

Bokindex

 

Bokindex är ett samlingsnamn för olika sorters in­dex som har det ge­mensamt att de är index till en spe­cifik bok. De kan t.ex. vara ämne­sord, eller namn på personer och orter. De kan vara enkla el­ler mycket ut­förliga. Att göra ett bra index till en veten­skaplig bok kan ta ganska lång tid. Å andra sidan kan det spara mycket tid åt läsarna genom att det leder läsarna direkt till de partier i bo­ken som man är intresse­rad av.

 

Tidskriftsindex

 

Tidskriftsindex följer samma principer som bokindex men har en del andra problem på grund av att det som regel är ett fortsätt­ningsverk. Det innebär bl.a. att det oftast är flera perso­ner som involveras i arbetet, och att det om­fattar fler ämnen än vad böck­erna brukar gör­a. Prin­ciperna och målet för in­dexering kan exempelvis väx­la med åren.

 

En annan viktig skillnad är att man i en bok som regel behandlar ett avgrän­sat äm­nesområde på en viss ni­vå, medan man i tids­krif­ter behandlar många olika äm­nen, som dessutom kan vara skrivna på olika nivåer. Detta gör att termer­nas be­tydelse kan var­iera i tids­krifterna.

 

En annan skillnad av praktisk karaktär är att man måste ange den sökta refe­rensens placering mer exakt och full­ständigt med tids­kriftens namn, år­gång, num­mer och pagine­ring. I bokin­dex räcker det som regel med angi­vande av sida eller kapitel­hän­vis­ning.

 

Man kan särskilja två kategorier av tidskrifts­in­dex. Index för en be­stämd tidskrift där utgivaren som regel är ansvarig för det, vanligen ett index för en hel år­gång. Den andra katego­rin är index för grupper av tids­krifter. In­dexering­en i det här fallet görs som regel av specialise­rade institutioner typ Biblioteks­tjänst.

 

Författarindex

 

Sådana index där ingångarna består av personnamn, in­stitutions­namn och lik­nande kallas för författa­rindex. De kan vara fördelakti­ga för vissa ändamål, ex.vis när man vill veta vad en viss person har skrivit. Inom ett begränsat område vet forskar­na t.ex. vilka de le­dande författarna är. Genom att söka dessa får man snabbt relevant litteratur inom ett ofta mycket begränsat äm­nesom­råde.

 

På senare tid talar man oftast om citeringsindex. Social sci­ence citation index och övriga index från ISI byg­ger på den­na filosofi. Dessa index har påverkat synen på det vetenskapliga arbetet. En författare som sällan citeras existerar inte.

 

Alfabetiskt index

 

Begreppet alfabetiskt index täcker en rad olika index. Gemensamt för dem är att be­greppen ord­nas alfabetiskt. Man kan placera alfa­betiskt, inte bara huvudin­gångarna till ämnen utan även under­av­del­ning­ar, korshän­visning­ar, inkl. för­fattare, institutio­ner och or­ter. Systemet är fördel­aktigt när man söker specifi­ka frågor. Vill man få litte­ratur inom ett större äm­nesområde måste man mo­di­fiera den alfabe­tiska upp­ställ­ning­en så att endast huvudav­delning­arna är alfabetiska, medan un­deravdel­ning­arna åter­finns efter respektive huvud­avdelning eller genom kopplingar till över­ordnade resp. un­derord­nade avdel­ningar.

      Ex.

 


           Bibliotekskunskap

           Biblioteksrutiner

           Boken kommer

           Fjärrlån

           Folkbibliotek

           Förvärv

           Klassifikation

           Utlån

 

Klassificerade index

Dessa index är användbara när man söker en grupp av dokument i rela­terade äm­nen. Man börjar söka på det mest generella ämnet för att sedan fortsätta längre ner till mer specifika sådana. De fun­gerar på samma sätt som vanliga klassifikations­system som UDK el­ler SAB, och behöver därför kompletteras med ett alfabetiskt regis­ter för att man skall kunna hitta rätt.

 

       Ex. Bibliotekskunskap

               Biblioteksadministration

               Biblioteksrutiner

                  Förvärv

                  Klassifikation

                  Utlån

                    Fjärrlån

               Biblioteksverksamhet

                  Boken kommer

               Bibliotekstyper

                  Folkbibliotek

                 Forskningsbibliotek

 

Titelindexering

 

Många indexeringssystem bygger på att man i huvudsak indexerar titeln i doku­mentet. Man förutsätter att ti­teln uttrycker dokumentets innehåll. En skillnad från katalogisering är att medan titeluppslaget endast går att söka på första filerande ordet i en alfabetisk ka­talog, kan man här söka på alla betydelsebärande ord. Man talar därför ofta om "permuterat titelindex".

 

Permuterat titelindex

 

Permuterat titelindex bygger på att man väljer sökord ur själva titeln. Alla infor­ma­tionsbärande ord är sök­bara. Fördelen med sys­temet är att inmatning­en kan göras nästan mekaniskt med mycket få regler att hålla reda på. Nack­delarna är att det kan vara svårare att finna vad man söker, eftersom man oftast söker på andra termer än dem som anges i titlarna. För vissa ämnen kan dessa system vara intres­santa medan de för andra kan vara helt omöjliga och menings­lösa. Ex.: 

   "Sjukdomar hos katter" ‑ båda orden sjukdomar och katter är sök­ba­ra.

   "Hur var det förr"     ‑ inget ord i titeln är sök­bart.

Permuterat titelindex kan se ut på många olika sätt. Här presente­ras några varian­ter.

 

KWIC

 

KWIC står för Keyword in context. Det är en alfabetisk lista ord­nad efter varje vik­tigt ord som före­kommer i titeln. Småord och prepositio­ner räknas inte med som sökord, liksom andra ord som man själv inte tycker skall vara sökbara av nå­gon anledning. Sök­ordet place­ras i sitt sam­manhang (context), dvs i den delen av titeln där det finns. Efter sökordet fortsätter man med res­ten av titeln, inklusive alla de små ord som annars inte är sökbara. Ofta be­stämmer man sig för att skriva ut ett maxi­malt antal tecken som får plats på en rad. Då kan slutresultatet se litet konstigt ut till en bör­jan. En del av titelns text faller bort. För att förstå sammanhanget har man bibehållit de ord i titeln som finns före sökordet, upp till ett bestämt antal tecken. Om sökordet före­kommer alldeles i början av titeln, fylls den tomma platsen med den sista delen av titeln med början bakifrån i stället. Man markerar slutet och början på titeln med snedstreck eller på annat sätt.

 

       Ex. "Det svenska lantbruket idag och imor­gon",

           "Hästar och kor och deras skötsel" och

           "Din häst blir frisk utan penicillin" permu­teras:

 

                                            sökord                                 re­fe­rens

 

        häst blir                        frisk utan penicillin/ Din        25

       cilin/ Din                        häst blir frisk utan peni         25

         skötsel/                       Hästar och kor och deras    32

         star och                       kor och deras skötsel/ Hä    32

       et svenska                     lantbruket idag och imorg    28

       frisk utan                       penicillin/ Din häst blir          25

         ch deras                      skötsel/ Hästar och kor o    32

       orgon/ Det                    svenska lantbruket idag o    28

Ord som inte är sökbara: din, blir, utan, och, deras, det, idag, imorgon

 

KWOC

 

KWOC betyder Keywords out of context. Sökordet flyttas ut och man behål­ler titeln som den är. Titeln behöver inte rotera som i förra exem­plet. Titeln läses i rätt ord­ningsföljd, såsom man är van vid. Exempel:

 

     sökord                                                                                        re­fe­rens

 

     Frisk                         Din häst blir frisk utan penicil­lin                    25

     Häst                          Din häst blir frisk utan penicil­lin                    25

     Hästar                       Hästar och kor och deras skötsel                32

     Kor                           Hästar och kor och deras skötsel                32

     Lantbruket                Det svenska lantbruket idag och imor          28

     Penicillin                    Din häst blir frisk utan penicil­lin                    25

     Skötsel                      Hästar och kor och deras skötsel                32

     Svenska                    Det svenska lantbruket idag och imor          28

 

En variant på KWOC som kan förekomma, är att man i själva titeln inte be­höver se själva sö­kordet, utan en asterisk eller annat tec­ken talar om att där är plat­sen för sökordet, ex.:

 

     Frisk        Din häst blir * utan penicilin         25

 

KWAC

 

Ytterligare en variant kallas KWAC (Keywords and con­text). Skill­naden mot den föregående är att de in­dex­eringstermer som anges framför titeln inte nödvän­digt­vis behöver finnas i själva titeln, utan kan bestäm­mas av indexera­ren antingen efter eget godtycke eller ur en termlista eller tesaurus. Ex­emplet ovan skulle se ut så här:

   sökord                                                                                          re­fe­rens

 

   Djurskötsel                  Hästar och kor och deras skötsel                32

   Framtidsfrågor             Det svenska lantbruket idag och imor          28

   Friskvård                    Din häst blir frisk utan penicil­lin                    25

   Hästar                         Din häst blir frisk utan penicil­lin                    25

     "                                Hästar och kor och deras skötsel                32

   Kor                             Hästar och kor och deras skötsel                32

   Lantbruk                     Det svenska lantbruket idag och imor          28

   Mediciner                    Din häst blir frisk utan penicillin                    25

   Sverige                        Det svenska lantbruket idag och imor          28

 

Typografiskt kan man ange titlarna på två olika sätt i både KWOC och KWAC. Antingen genom att skriva ut hela titeln, oberoende av längd, eller som i exemplen ovan genom att avgränsa texten till vad som får plats på en rad. Radens längd bestämmer man själv från början.

 

NEPHIS

 

NEPHIS står för Nested phrase indexing system. Skillna­den mot sys­temen ovan är att här tar man inte enstaka ord eller begrepp, utan man delar titeln i logiska de­lar som går att förstå. Ex. "Online infor­mation retrie­val in public libraries" kan efter en enkel ana­lys in­delas i följande beståndsdelar: "online", "informa­tion ret­rieval", "pu­blic libraries". Alla dessa delar skall vara sökbara som första led. I andra led analy­serar man de resterande delarna och ser vil­ken som är lämpligast att foga till det redan valda, och så fortsätter man tills alla bitarna är med.

 

Söker man "information retrieval" är det t.ex. mer lo­giskt att fortsätta med "onli­ne" än med "public lib­ra­ri­es". Flera ex: (sorterade i alfabetisk ord­ning)

    

      sökord                                                                     re­ferens                        

 

      Art of indexing, the,                                                  22

      Bibliotek, svenska, klassifikationssystem för,             34

      Indexing, the art of,                                                   22

      Industry, microcomputers in,                                     48

      Information retrieval, online, in public librari­es            31

      Information retrieval systems, library and                   35

      Klassifikationssystem för svenska bibliotek                34

      Library and information retrieval systems                   35

      Microcomputers in industry                                       48

      Online information retrieval in public libraries             31

      Public libraries, online information retrieval in,            31

      Retrieval systems, information, library and,                35

      Svenska bibliotek, klassifikationssystem för,              34

 

Facetterat index

 

Ett facetterat indexeringssystem bygger på att man ord­nar indexe­rings­termer­na systematiskt i huvud­klasser och att un­derindel­ningen görs ge­nom tillägg efter de olika egenska­per som kan tän­kas vara möjliga inom ämnet. Det kan t.ex. vara formen, verksam­heten eller materia­let. Ran­ganathan, som var först med att introducera begrep­pet facett, räknade upp fle­ra kategorier av facetter grup­pera­de kring begreppen per­sonlighet, material, energi, plats och tid (förkortat PMEST). En fördel med facette­rade system är att underindel­ning­en i tabeller­na inte behöver göras i förväg, utan efter behov. Detta sparar mycket ut­rym­me i tabellerna. I motsats till fa­cetterat in­dex kan enumerativt index användas. Enume­ra­tivt index innebär att man räknar upp alla tilltänkta be­grepp re­dan från bör­jan. Ex. på  båda varianter:

 

Enumerativt system:                                     Facetterat sys­tem:

 

Physiology                                                                    (process facet)

  Respiration                                                                     Physiology

  Reproduction                                                                 Respira­tion

Water animals                                                                  Reproduc­tion

  Physiology of water animals         

    Respiration of water animals                                  (animals facet)

    Reproduction of water animal                                (by habitat subfa­cet)  

Land animals

  Physiology of land animals                                       Water animals

      Respiration of land animals                                  Land ani­mals

      Reproduction of land animals                              (by taxonomic subfa­cet)

  Invertebrates

   Physiology                                                                 Invertebra­tes

       Respiration                                                                Insects

       Reproduction                                                          Vertebrates  

     Water invertebrates                                                   Reptiles

       Physiology                                                             (Indexeraren själv kan efter behov

          Respi­ra­tion                                                          an­vända dessa facetter och kombine­ra

        Rep­roduc­tion                                                        dem. Resultatet blir detsamma som

Land invertebra­tes.                                                      i den vänstra kolumnen)

 Physio­logy

     Respiration

      Reproduction

       Insects

           

            Water insects

                                                                                    Ex. hämtat ur: Buchanan, Theory of

       Vertebrates etc.                                                      library classification, 1979, s. 28-30.

 

Koordinerad indexering

 

Med koordinerad indexering menar man att man kombinerar två eller flera enkla termer för att bilda en ny klass. Ett dokuments inne­håll går sällan att precisera med endast ett begrepp. All­mänt är det just detta man of­tast menar med indexering. Det går att skilja mellan två hu­vudgrup­per: pre‑ och post-koordinera­de sys­tem.

 

Pre-koordinerad indexering

 

Vid pre-koordinerad indexering betraktas sammansatta ämnen som en­heter. Man ana­lyserar först de i begreppet ingående termerna för att sedan placera dessa efter de regler som det valda in­dexerings­språ­ket anger. Det är indexera­ren som bestäm­mer i vilken ordning termerna skall få vara. Vid post­-koordi­nerad indexe­ring be­trak­tas varje delämne som oberoende och ges en lämplig term. Termerna kom­bi­neras först vid sökningen. Här ned­an skall vi först ta upp olika former av pre-koor­dine­rad in­dexering.

 

PRECIS

 

PRECIS, som betyder PREserved Context Index System, är  ett pre-koordinerat indexeringssystem. Det har använts bl.a. i den b­rit­tiska natio­nal­bibliografin. Skillna­den är att man här kan söka varje enskild term och redan där se i vilken betydelse som förfat­taren använt ter­men. Genom att termen länkas till andra indexe­ringster­mer med vil­ka den hör ihop, ser man om man har kommit rätt. Termer­na står i en noggrant analyserad syn­taktisk relation till var­andra. Syste­met krä­ver myck­et av indexera­ren. När en gång relationerna mellan ter­mer­na är angivna roteras termerna automa­tiskt med hjälp av da­torer. Man använder sig av "role opera­tors" (styr­ko­der). De vikti­ga är:

    styrkod 1  objektet

    styrkod 2  aktionen, händelseförloppet

    styrkod 3  agenten

    styrkod o  geografisk omgivning

    styrkod p  part eller del av objektet

    styrkod q  kvasi-generella relationer

    styrkod r  sällskap, kollektiva substantiv

 

För att rotationen mellan termerna inte skall skapa oväntade kombinatio­ner och miss­förstånd har man sedan delat dem i "lead", qualifier" och "display". I prin­cip skall samtliga termer­ få vara "lead". Man kan dock ute­lämna vissa alltför specifika eller alltför generel­la termer. Qualifier utvidgar kontex­ten, dvs funge­rar som ett överordnat begrepp till "lead", medan "dis­play" avgrän­sar termens betydelse. Qualifier och dis­play be­höver inte alltid finnas.

Varje qualifier som ytterligare utvidgar kontexten pla­ceras på samma rad efter varandra. Display placeras på raden under och varje display som ytterli­gare avgränsar be­tydelsen placeras därefter.

    Ordningen ser ut så här:

 

   LEAD A. Qualifier B. Qualifier C. Qualifier D

   

   LEAD B. Qualifier C. Qualifier D

     Display A

 

   LEAD C. Qualifier D

     Display B. Display A

 

   LEAD D

     Display C. Display B. Display A

 

Ex:

  ANIMATION. Computers. Television industry. United Sta­tes.

  COMPUTERS. Television industry. United States.

         Animation

  TELEVISION INDUSTRY. United States.

         Computers. Animation.

   UNITED STATES

       Television industri. Computers. Animation.

 

Annat ex.:

   ADMINISTRATION. Libraries. Colleges. Great Britain.

   LIBRARIES. Colleges. Great Britain.

         Administration.

   COLLEGES. Great Britain.

         Libraries. Administration.

 

Great Britain är inte sökbart här, däremot United Sta­tes ovan. Anled­ningen är att man inte kan söka allt möjligt under ett land. Industry är ett ämne som går, men inte Col­le­ges.

 

Annat ex.:

  ADMINISTRATION. Development projects. Rural re­gions. De­ve-

       ­loping countries

  DEVELOPMENT PROJECTS. Rural regions. Developing coun­tries

       Administration

  RURAL REGIONS. Developing countries

       Development projects. Administration

  DEVELOPING COUNTRIES

       Rural regions. Development projects. Administra­tion.

 

Det stora arbete det innebar att precisera de olika styr­koderna, innan rotatio­nen kunde göras mekaniskt gjor­de att BNB slutade med PRECIS i och med utgången av 1990-års bibliografi. Nu har man ett enklare in­dexe­ringssystem, benämnt COMPASS, där man visserligen fö­ljer huvudprinciperna för PRECIS, med olika rollope­ratorer och en särskild syntax, men man går inte så långt i spe­ci­fi­ci­tet. Vidare har man placerat geografi­ska benämningar utanför. I och med att in­dex­e­ring­ster­mer­na an­ger ett DDC-tal, kan man se­dan gå till na­tional­bibliog­ra­fins första del, som är ordnad syste­ma­tiskt, och söka vidare där.

 

Andra roterande system

 

Det finns flera andra modeller för hur rotationen kan ske. En relativt enkel modell ut­görs av äm­ne­sordsindex­et i SCANP (Scandinavian periodicals index in economics and business). Om man t.ex. söker i katalogen för året 1985 på termen Administration får man bland under­ru­brikerna termen Libraries med en hän­visning till rap­port nr 207. Söker man sedan på Libra­ries får man också under­ru­bri­ken Ad­ministra­tion med en hänvisning till samma rapportnummer. Här är det alltså inte fråga om över‑ resp. underav­delning. Båda av­delningarna är lik­värdiga. Genom att kom­binera två termer minskar man antalet sökbara rapporter avsevärt, samtidigt som man ändå be­håller möjlighe­ten att söka efter ett bredare ämnesområde.

 

Ytterligare några exempel från SCANP (siffran anger referensnumret till artikeln i bibliografin):

 

 

ACCIDENT INSURANCE                             ACCOUNTING RESEARCH

    ACCIDENTS 259                                         BUDGETING 385

    COMPANIES BY                                         INFORMATION 385

    PROFITABILITY 191                               ...

  ...                                                                 UNCERTAINTY 385

    LONG RANGE PLANNING 259                ACCOUNTING STANDARDS

  ...                                                                ACCOUNTING PROFESSION 425

    SOCIAL PLANNING 259                          ...

    SOCIAL RESPONSIBILITY 259                  PROFESSIONAL ETHICS 425         

ACCIDENTS                                               ACCOUNTING SYSTEMS

    ACCIDENT INSURANCE 259                      ACCOUNTABILITY 467

    COSTS 1129                                              BUDGETING 465

    LONG RANGE PLANNING 259                   CORPORATE CULTURE 467

  ...                                                             ADVERTISING AGENCIES

    SOCIAL PLANNING 259                             ADVERTISING EFFECTIVE-

    SOCIAL RESPONSIBILITY 259                   NESS   1711 1732                          

ACCOUNTABILITY                                         COMPANY RANKING 1714 1732

    ACCOUNTING SYSTEMS 467                     PROFITALIBITY 1711

    CORPORATE SYSTEMS 467                       PUBLIC ADVERTISING 1732

 

En artikel kan vara indexerad på flera begrepp. Genom att alla är sökbara samtidigt, kan man välja de be­grepp vars kombination tros ligga inom intresseom­rådet. Inom accident insurance finns t.ex. sju olika rapporter. Genom kombinationen med social planning el­ler social responsibility ­kan man t.ex. välja dessa i stäl­let för en rap­port som t.ex. handlar om finansiella risker eller om kostnader.

 

Post‑koordinerad indexering

 

Post-koordinerad indexering innebär att ett dokument indexeras på olika ter­mer, men att dessa termer inte sättes i någon relation till varandra vid själva index­eringen, utan relateras först till varandra när någon söker på dem. Man kan t.ex. in­dex­era en bok om "utlå­ningssystem på folk­bibliotek" genom att indexera "utlå­ning" och "folk­bibliotek" var för sig. När man sedan vill söka i systemet söker man t.ex. först på alla referen­ser som handlar om "utlåning", för att sedan bland dessa söka på dem som hand­lar om "folk­bib­liotek". En stor för­del med post-koordi­nering är att det annars kan vara ganska svårt att fastställa en viss ord­ning mellan termerna, och att det där­för krä­ver gan­ska mycket tid i an­språk att göra det rätt. Vad som dess­utom kan uppfattas rätt av indexe­raren kan­ske inte stämmer överens med den uppfattning­ syste­mets an­vän­da­re har av ämnet.

Fadern till post-koordinerad indexering var Mortimer Taube, som i början av 50-talet konstruerade ett system med s.k. "uniterm-kort". Systemet byggde på att man för varje enkel term skrev ett kort, där man sedan skrev dokumentens accessionsnummer. När man sedan sökte på två eller tre begrepp jämförde man bara de antecknade numren på korten.

 

 

ETT INDEXERINGSSYSTEMS EFFEKTIVITET

 

En viktig fråga man ställer sig med jämna mellanrum är hur pass effek­tivt i att åter­vinna in­formation ett in­dexeringssystem är. Det väsentliga för en låntagare är att hitta de doku­ment som är relevanta för hans/­hennes in­formationsbe­hov. För att mäta effekti­viteten använder man sig av två cen­trala begrepp:

 

Precision

 

Med precision menar man relationen mellan antalet rele­vanta doku­ment som åter­funnits och antalet återfunna dokument totalt. Det kan sedan mätas i pro­cent enligt formeln:

 

          relevanta återfunna dokument

    p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑   x 100% 

          återfunna dokument totalt

 

Ett ex.:

a) Man är intresserad av litteratur om fjärrlån och indexerings­systemet ger oss 50 träffar på termen "ut­lån". Termen "fjärrlån" finns inte. Av dessa 50 doku­ment hand­lar ett tiotal enbart om  f­järrlån och ytter­ligare ett tiotal om fjärrlån som ett de­läm­ne.

 

         20 relevanta dokument

    p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 40% precisio­nen är 40%          

         50 återfunna dokument

 

 

b) Vill man utöka precisionen i systemet gör man bara så att man ut­vidgar indexe­ringen med den mer speci­fika ter­men "fjärrlån". Man får då 10 träffar och alla 10 är relevan­ta.

        10 relevanta dokument

    p =‑‑--‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑  x 100% = 100%

        10 återfunna dokument

 

Precisionen står i visst motsatsförhållande till det andra begrep­pet "åter­vin­nings­grad".

 

Återvinningsgrad

 

Återvinningsgrad (recall på engelska) är i vilken mån man har lyck­ats hitta alla dokument som är relevanta för vårt ämne. Det kan uttryckas med följande formler:

 

         relevanta återfunna dokument

   r  = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑  x 100%

         relevanta dokument i samlingen

 

Om man tar samma exempel ovan:

1) När man söker på begreppet "utlån" får man 50 träffar, varav 20 handlar om fjärrlån på ett eller annat sätt. När man tänker efter, är det inte uteslu­tet att även andra doku­ment i samlingen, som är indexerade på "bib­lio­tek", "forsknings­bibliotek" eller andra ter­mer, ock­så delvis hand­lar om "fjärrlån". Det enda sät­tet att mäta återvin­ningsgraden är att gå igenom hela sam­ling­en. Låt oss anta att vår samling är liten, och att man efter ge­nomgång lyckas hitta ett tjugo­tal andra rap­por­ter som också be­rör "fjärr­lån", men som är index­era­de under andra be­grepp.

 

        20 relevanta återfunna dokument

 r  =  ---‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 50%

        40 relevanta dokument i samlingen

 

2) I fallet b) ovan kunde man söka direkt på "fjärrlån". Då blir det:

 

        10 relevanta återfunna dokument

  r  = ----‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑-‑‑‑  x 100% = 25%

        40 relevanta dokument i samlingen

 

Återvinningsgraden kan man som regel inte räkna ut an­nat än genom stick­prov vid undersökningar av systemets an­vändarvänlighet. Som vi ser innebär en ökad grad av preci­sion minskad återvinningsgrad. Det viktiga när man bygger upp ett indexe­ringssystem är att hitta  en balans mellan dessa två mot­stridiga krav. Ju mera spe­cifi­ka termer man använder desto högre grad av preci­sion blir det, men desto mindre pro­cent av den relevanta litte­raturen hittar man när man söker. All­tför generella termer är också me­ningslösa, ef­ter­som man då får litte­ratur som man inte är intressera­de av och som man själv ­mås­te sålla bort manu­ellt. Vid retro­spektiv sök­ning är det fördelaktigare med ett system som har en hög grad av precision, medan det vid löpan­de sökning är ön­skvärt med ett sys­tem som har högre åter­vinnings­grad.

 

Uttömandegrad

 

Uttömmandegrad (eng. exhaustivity) talar om till vilken grad de koncept och ämnen som behandlas i en publika­tion återfinns med hjälp av de indexerade termerna. Måt­tet på uttömmandegrad kan be­räknas efter antalet begrepp som indexe­raren får an­vän­da för att indexera ett do­ku­ment. I de traditionel­la klas­sifikationssyste­men utgår man från högst trippel­klassning. I in­dex­ering finns som regel större frihet. Det är inte helt omöj­ligt att indexera vissa artiklar eller doku­ment med upp till ett tjugotal be­grepp. Verkligheten brukar dock begränsa möjligheterna. Man skriver sällan om många ämnen samtidigt i samma skrift.

 

Specificitet

 

Specificitet (eng. specificity) handlar om hur pass nära in­dexering­ster­mer­na kommer det begrepp man vill beskriva. Ordet "­bröd" kan t.ex. vara ett bra ord i ett indexeringssystem. I ett annat kanske man tycker att termen är alldeles för generell, och "rågbröd" är kan­ske den term man vill ha.

 

Högre uttömmandegrad kan öka återvinningsgraden, efter­som man får flera ingång­ar till sam­lingen. Med högre specificitet når man hög­re grad av preci­sion. Hög ut­töm­man­degrad och hög specificitet står inte i motsats­för­hål­lande till varan­dra, utan de kan före­komma samti­digt.

 

LITTERATUR

 

 

Aitchison, Jean, Thesaurus construction : a practical manual / Jean Ait­chison & Alan Gilchrist. - 2.ed. - Aslib, 1987.

 

Austin, Derek, PRECIS : a manual of concept analysis and subject in­dexing. - 2. ed. - The British Library, 1984.

 

Buchanan, Brian, Theory of library classification. - 1979.

 

Cleveland, Donald B., Introduction to indexing and ab­stracting / Do­nald B. Cleve­land, Ana D. Cleve­land. - 2. ed. - Libraries Unlimited, 1990.

 

Documentation - Guidelines for the es­tablishment and development of mo­no­lingual thesauri. - 2. ed. - ISO, 1986. - (ISO/DIS 2­788)

 

Documentation - Guidelines for the establishement and development of multi­lingual thesauri. - ISO, 1985. - (ISO 5964)

 

Foskett, A.C., The subject approach to information. - 5. ed. - Library Association, 1996.

 

Indexers on indexing / edited by Leonard Montague Har­rod. - Bowker, 1978.

 

Ramsden, Michael J., An introduction to index language construction. - Bing­ley, 1974.

 

Rowley, Jennifer E., Abstracting and indexing. - Bing­ley, 1982.

 

Wellisch, Hans H., Indexing from A to Z. - Wilson, 1991.

 

Wynar, Bohdan S., Introduction to cataloging and clas­sification. - 8. ed.

- . - Libraries Unlimited, 1992.

 

 


© 2001-2009, Miguel Benito
Tillbaka till kunskapsorganisation
Tillbaka till hemsidan
URL: http://www.taranco.eu/
E-post: miguel.benito /@/ taranco.eu