Kapitel 9
Kapitel 11
Miguel Benito
KAPITEL 10
INDEXERING
Vid registreringen
av dokument analyserar man dokumentet dels efter formella kriterier såsom
författare, titel, serietillhörighet,
o.s.v., dels efter ämnesmässiga kriterier. I det första fallet talar
man om återvinning av dokument, i det andra om återvinning av information.
Man kan beskriva
dokumentets innehåll med hjälp av särskilda koder eller med hjälp av ämnesord,
sk deskriptorer, indexeringstermer.
När man använder sig
av koder för att återge ämnena talar man om klassifikationssystem, som SAB,
UDK, LC. När man använder sig av ämnesord talar man om indexeringssystem.
Dessa belyser olika aspekter och ger enskilt eller i kombination med varandra
en ämnesbeskrivning av dokumentet.
Definition
Hans H. Wellisch
(1991) beskriver ingående de olika betydelser ordet "index" har
fått, samt förklarar ordets etymologiska ursprung. I detta sammanhang betyder
index och indexering att få innehållet i ett dokument tillgängligt genom att
skriva ut namn och ämnesord i en bestämd ordning, med en indikation om var i
dokumentet eller i vilket dokument dessa termer behandlas.
Historik
Indexering är, på
samma sätt som klassifikation, inget nytt som börjat tillämpas på senare år,
utan den har sina rötter långt tillbaka i tiden. Redan i Alexandria hade man
för vana att skriva annotationer till innehållet i papyrusrullarna. Man började
på ett tidigt stadium skriva kapitelrubriker i böckerna, eller en kort sammanfattning,
som i praktiken inte är något annat än en form av indexering. De rubriker man
använder i marginalen i böckerna är också de en form av indexering över
bokens innehåll. En annan form av indexering är rubrikerna överst på
boksidorna. De hjälper ju läsarna att snabbt hitta den information man är
intresserad av. Det var under medeltiden i samband med bildandet av universitet
runt om i Europa som behovet av att indexera ökade och då man för första
gången började använda sig av den alfabetiska ordningen. Under 1700‑talet
börjar man använda sig av ämnesordsindex i större utsträckning. Men det är
under 1800‑talets senare del man finner en klarare systematik.
Olika index
Konkordans
Ord‑ och
namnindex (konkordans) är ett index till de ord och namn som en författare
använder i en bestämd bok. Det ger i många fall viktig information om bokens
innehåll. Särskilt användbara är de för lingvister. Bibelkonkordans är ett
bra exempel på detta.
Bokindex
Bokindex är ett
samlingsnamn för olika sorters index som har det gemensamt att de är index
till en specifik bok. De kan t.ex. vara ämnesord, eller namn på personer och
orter. De kan vara enkla eller mycket utförliga. Att göra ett bra index till
en vetenskaplig bok kan ta ganska lång tid. Å andra sidan kan det spara mycket
tid åt läsarna genom att det leder läsarna direkt till de partier i boken som
man är intresserad av.
Tidskriftsindex
Tidskriftsindex
följer samma principer som bokindex men har en del andra problem på grund av
att det som regel är ett fortsättningsverk. Det innebär bl.a. att det oftast
är flera personer som involveras i arbetet, och att det omfattar fler ämnen
än vad böckerna brukar göra. Principerna och målet för indexering kan
exempelvis växla med åren.
En annan viktig
skillnad är att man i en bok som regel behandlar ett avgränsat ämnesområde på
en viss nivå, medan man i tidskrifter behandlar många olika ämnen, som
dessutom kan vara skrivna på olika nivåer. Detta gör att termernas betydelse
kan variera i tidskrifterna.
En annan skillnad av
praktisk karaktär är att man måste ange den sökta referensens placering mer
exakt och fullständigt med tidskriftens namn, årgång, nummer och paginering.
I bokindex räcker det som regel med angivande av sida eller kapitelhänvisning.
Man kan särskilja
två kategorier av tidskriftsindex. Index för en bestämd tidskrift där
utgivaren som regel är ansvarig för det, vanligen ett index för en hel årgång.
Den andra kategorin är index för grupper av tidskrifter. Indexeringen i det
här fallet görs som regel av specialiserade institutioner typ Bibliotekstjänst.
Författarindex
Sådana index där
ingångarna består av personnamn, institutionsnamn och liknande kallas för
författarindex. De kan vara fördelaktiga för vissa ändamål, ex.vis när man
vill veta vad en viss person har skrivit. Inom ett begränsat område vet forskarna
t.ex. vilka de ledande författarna är. Genom att söka dessa får man snabbt
relevant litteratur inom ett ofta mycket begränsat ämnesområde.
På senare tid talar
man oftast om citeringsindex. Social science citation index och övriga index
från ISI bygger på denna filosofi. Dessa index har påverkat synen på det
vetenskapliga arbetet. En författare som sällan citeras existerar inte.
Alfabetiskt index
Begreppet
alfabetiskt index täcker en rad olika index. Gemensamt för dem är att begreppen
ordnas alfabetiskt. Man kan placera alfabetiskt, inte bara huvudingångarna
till ämnen utan även underavdelningar, korshänvisningar, inkl. författare,
institutioner och orter. Systemet är fördelaktigt när man söker specifika
frågor. Vill man få litteratur inom ett större ämnesområde måste man modifiera
den alfabetiska uppställningen så att endast huvudavdelningarna är
alfabetiska, medan underavdelningarna återfinns efter respektive huvudavdelning
eller genom kopplingar till överordnade resp. underordnade avdelningar.
Ex.
Bibliotekskunskap
Biblioteksrutiner
Boken kommer
Fjärrlån
Folkbibliotek
Förvärv
Klassifikation
Utlån
Klassificerade index
Dessa index är
användbara när man söker en grupp av dokument i relaterade ämnen. Man börjar
söka på det mest generella ämnet för att sedan fortsätta längre ner till mer
specifika sådana. De fungerar på samma sätt som vanliga klassifikationssystem
som UDK eller SAB, och behöver därför kompletteras med ett alfabetiskt register
för att man skall kunna hitta rätt.
Ex.
Bibliotekskunskap
Biblioteksadministration
Biblioteksrutiner
Förvärv
Klassifikation
Utlån
Fjärrlån
Biblioteksverksamhet
Boken kommer
Bibliotekstyper
Folkbibliotek
Forskningsbibliotek
Titelindexering
Många
indexeringssystem bygger på att man i huvudsak indexerar titeln i dokumentet.
Man förutsätter att titeln uttrycker dokumentets innehåll. En skillnad från
katalogisering är att medan titeluppslaget endast går att söka på första filerande
ordet i en alfabetisk katalog, kan man här söka på alla betydelsebärande ord.
Man talar därför ofta om "permuterat titelindex".
Permuterat titelindex
Permuterat
titelindex bygger på att man väljer sökord ur själva titeln. Alla informationsbärande
ord är sökbara. Fördelen med systemet är att inmatningen kan göras nästan
mekaniskt med mycket få regler att hålla reda på. Nackdelarna är att det kan
vara svårare att finna vad man söker, eftersom man oftast söker på andra termer
än dem som anges i titlarna. För vissa ämnen kan dessa system vara intressanta
medan de för andra kan vara helt omöjliga och meningslösa. Ex.:
"Sjukdomar hos katter" ‑
båda orden sjukdomar och katter är sökbara.
"Hur var det förr" ‑ inget ord i titeln är sökbart.
Permuterat
titelindex kan se ut på många olika sätt. Här presenteras några varianter.
KWIC
KWIC står för
Keyword in context. Det är en alfabetisk lista ordnad efter varje viktigt ord
som förekommer i titeln. Småord och prepositioner räknas inte med som sökord,
liksom andra ord som man själv inte tycker skall vara sökbara av någon
anledning. Sökordet placeras i sitt sammanhang (context), dvs i den delen av
titeln där det finns. Efter sökordet fortsätter man med resten av titeln,
inklusive alla de små ord som annars inte är sökbara. Ofta bestämmer man sig
för att skriva ut ett maximalt antal tecken som får plats på en rad. Då kan
slutresultatet se litet konstigt ut till en början. En del av titelns text
faller bort. För att förstå sammanhanget har man bibehållit de ord i titeln som
finns före sökordet, upp till ett bestämt antal tecken. Om sökordet förekommer
alldeles i början av titeln, fylls den tomma platsen med den sista delen av
titeln med början bakifrån i stället. Man markerar slutet och början på titeln
med snedstreck eller på annat sätt.
Ex. "Det svenska lantbruket idag
och imorgon",
"Hästar och kor och deras skötsel" och
"Din häst blir frisk utan
penicillin" permuteras:
sökord referens
häst blir frisk
utan penicillin/ Din 25
cilin/ Din häst
blir frisk utan peni 25
skötsel/ Hästar
och kor och deras 32
star och kor
och deras skötsel/ Hä 32
et svenska lantbruket
idag och imorg 28
frisk utan penicillin/
Din häst blir 25
ch deras skötsel/
Hästar och kor o 32
orgon/ Det svenska
lantbruket idag o 28
Ord som inte är
sökbara: din, blir, utan, och, deras, det, idag, imorgon
KWOC
KWOC betyder
Keywords out of context. Sökordet flyttas ut och man behåller titeln som den
är. Titeln behöver inte rotera som i förra exemplet. Titeln läses i rätt ordningsföljd,
såsom man är van vid. Exempel:
sökord referens
Frisk Din
häst blir frisk utan penicillin 25
Häst Din
häst blir frisk utan penicillin 25
Hästar
Hästar och kor
och deras skötsel 32
Kor
Hästar och
kor och deras skötsel 32
Lantbruket Det svenska lantbruket idag och imor 28
Penicillin Din
häst blir frisk utan penicillin 25
Skötsel Hästar
och kor och deras skötsel 32
Svenska Det
svenska lantbruket idag och imor 28
En variant på KWOC
som kan förekomma, är att man i själva titeln inte behöver se själva sökordet,
utan en asterisk eller annat tecken talar om att där är platsen för sökordet,
ex.:
Frisk Din häst blir * utan penicilin 25
KWAC
Ytterligare en
variant kallas KWAC (Keywords and context). Skillnaden mot den föregående är
att de indexeringstermer som anges framför titeln inte nödvändigtvis
behöver finnas i själva titeln, utan kan bestämmas av indexeraren antingen efter
eget godtycke eller ur en termlista eller tesaurus. Exemplet ovan skulle se ut
så här:
sökord referens
Djurskötsel Hästar
och kor och deras skötsel 32
Framtidsfrågor Det
svenska lantbruket idag och imor 28
Friskvård Din
häst blir frisk utan penicillin 25
Hästar Din
häst blir frisk utan penicillin 25
" Hästar
och kor och deras skötsel 32
Kor Hästar
och kor och deras skötsel 32
Lantbruk Det
svenska lantbruket idag och imor 28
Mediciner Din
häst blir frisk utan penicillin 25
Sverige Det
svenska lantbruket idag och imor 28
Typografiskt kan man
ange titlarna på två olika sätt i både KWOC och KWAC. Antingen genom att skriva
ut hela titeln, oberoende av längd, eller som i exemplen ovan genom att
avgränsa texten till vad som får plats på en rad. Radens längd bestämmer man
själv från början.
NEPHIS
NEPHIS står för Nested
phrase indexing system. Skillnaden mot systemen ovan är att här tar man inte
enstaka ord eller begrepp, utan man delar titeln i logiska delar som går att
förstå. Ex. "Online information retrieval in public libraries" kan
efter en enkel analys indelas i följande beståndsdelar: "online",
"information retrieval", "public libraries". Alla dessa
delar skall vara sökbara som första led. I andra led analyserar man de
resterande delarna och ser vilken som är lämpligast att foga till det redan
valda, och så fortsätter man tills alla bitarna är med.
Söker man
"information retrieval" är det t.ex. mer logiskt att fortsätta med
"online" än med "public libraries". Flera ex:
(sorterade i alfabetisk ordning)
sökord referens
Art of indexing, the, 22
Bibliotek, svenska, klassifikationssystem
för, 34
Indexing, the art of, 22
Industry, microcomputers in, 48
Information retrieval, online, in public
libraries 31
Information retrieval systems, library
and 35
Klassifikationssystem för svenska
bibliotek 34
Library and information retrieval
systems 35
Microcomputers in industry 48
Online information retrieval in public
libraries 31
Public libraries, online information
retrieval in, 31
Retrieval systems, information, library
and, 35
Svenska bibliotek, klassifikationssystem
för, 34
Facetterat index
Ett facetterat
indexeringssystem bygger på att man ordnar indexeringstermerna systematiskt
i huvudklasser och att underindelningen görs genom tillägg efter de olika
egenskaper som kan tänkas vara möjliga inom ämnet. Det kan t.ex. vara formen,
verksamheten eller materialet. Ranganathan, som var först med att
introducera begreppet facett, räknade upp flera kategorier av facetter grupperade
kring begreppen personlighet, material, energi, plats och tid (förkortat
PMEST). En fördel med facetterade system är att underindelningen i tabellerna
inte behöver göras i förväg, utan efter behov. Detta sparar mycket utrymme i
tabellerna. I motsats till facetterat index kan enumerativt index användas.
Enumerativt index innebär att man räknar upp alla tilltänkta begrepp redan
från början. Ex. på båda varianter:
Enumerativt
system: Facetterat system:
Physiology (process facet)
Respiration Physiology
Reproduction Respiration
Water
animals Reproduction
Physiology of water animals
Respiration of water animals (animals
facet)
Reproduction of water animal (by
habitat subfacet)
Land
animals
Physiology of land animals Water animals
Respiration of land animals Land
animals
Reproduction of land animals (by
taxonomic subfacet)
Invertebrates
Physiology Invertebrates
Respiration Insects
Reproduction Vertebrates
Water invertebrates Reptiles
Physiology (Indexeraren själv kan
efter behov
Respiration använda
dessa facetter och kombinera
Reproduction dem.
Resultatet blir detsamma som
Land
invertebrates. i den
vänstra kolumnen)
Physiology
Respiration
Reproduction
Insects
…
Water
insects
… Ex.
hämtat ur: Buchanan, Theory of
Vertebrates etc. library
classification, 1979, s. 28-30.
Koordinerad indexering
Med koordinerad
indexering menar man att man kombinerar två eller flera enkla termer för att
bilda en ny klass. Ett dokuments innehåll går sällan att precisera med endast
ett begrepp. Allmänt är det just detta man oftast menar med indexering. Det
går att skilja mellan två huvudgrupper: pre‑ och post-koordinerade system.
Pre-koordinerad indexering
Vid pre-koordinerad
indexering betraktas sammansatta ämnen som enheter. Man analyserar först de i
begreppet ingående termerna för att sedan placera dessa efter de regler som det
valda indexeringsspråket anger. Det är indexeraren som bestämmer i vilken
ordning termerna skall få vara. Vid post-koordinerad indexering betraktas
varje delämne som oberoende och ges en lämplig term. Termerna kombineras
först vid sökningen. Här nedan skall vi först ta upp olika former av pre-koordinerad
indexering.
PRECIS
PRECIS, som betyder
PREserved Context Index System, är ett
pre-koordinerat indexeringssystem. Det har använts bl.a. i den brittiska
nationalbibliografin. Skillnaden är att man här kan söka varje enskild term
och redan där se i vilken betydelse som författaren använt termen. Genom att
termen länkas till andra indexeringstermer med vilka den hör ihop, ser man
om man har kommit rätt. Termerna står i en noggrant analyserad syntaktisk
relation till varandra. Systemet kräver mycket av indexeraren. När en gång
relationerna mellan termerna är angivna roteras termerna automatiskt med
hjälp av datorer. Man använder sig av "role operators" (styrkoder).
De viktiga är:
styrkod 1
objektet
styrkod 2
aktionen, händelseförloppet
styrkod 3
agenten
styrkod o
geografisk omgivning
styrkod p
part eller del av objektet
styrkod q
kvasi-generella relationer
styrkod r
sällskap, kollektiva substantiv
För att rotationen
mellan termerna inte skall skapa oväntade kombinationer och missförstånd har
man sedan delat dem i "lead", qualifier" och
"display". I princip skall samtliga termer få vara
"lead". Man kan dock utelämna vissa alltför specifika eller alltför
generella termer. Qualifier utvidgar kontexten, dvs fungerar som ett
överordnat begrepp till "lead", medan "display" avgränsar
termens betydelse. Qualifier och display behöver inte alltid finnas.
Varje qualifier som
ytterligare utvidgar kontexten placeras på samma rad efter varandra. Display
placeras på raden under och varje display som ytterligare avgränsar betydelsen
placeras därefter.
Ordningen ser ut så här:
LEAD A.
Qualifier B. Qualifier C. Qualifier D
LEAD B.
Qualifier C. Qualifier D
Display A
LEAD C.
Qualifier D
Display B. Display A
LEAD D
Display C.
Display B. Display A
Ex:
ANIMATION. Computers. Television
industry. United States.
COMPUTERS. Television industry. United
States.
Animation
TELEVISION INDUSTRY. United States.
Computers. Animation.
UNITED STATES
Television
industri. Computers. Animation.
Annat ex.:
ADMINISTRATION. Libraries. Colleges.
Great Britain.
LIBRARIES. Colleges. Great Britain.
Administration.
COLLEGES. Great Britain.
Libraries. Administration.
Great Britain är
inte sökbart här, däremot United States ovan. Anledningen är att man inte kan
söka allt möjligt under ett land. Industry är ett ämne som går, men inte Colleges.
Annat ex.:
ADMINISTRATION. Development projects.
Rural regions. Deve-
loping countries
DEVELOPMENT PROJECTS. Rural regions.
Developing countries
Administration
RURAL REGIONS. Developing countries
Development projects. Administration
DEVELOPING
COUNTRIES
Rural
regions. Development projects. Administration.
Det stora arbete det
innebar att precisera de olika styrkoderna, innan rotationen kunde göras
mekaniskt gjorde att BNB slutade med PRECIS i och med utgången av 1990-års
bibliografi. Nu har man ett enklare indexeringssystem, benämnt COMPASS, där
man visserligen följer huvudprinciperna för PRECIS, med olika rolloperatorer
och en särskild syntax, men man går inte så långt i specificitet. Vidare
har man placerat geografiska benämningar utanför. I och med att indexeringstermerna
anger ett DDC-tal, kan man sedan gå till nationalbibliografins första
del, som är ordnad systematiskt, och söka vidare där.
Andra roterande system
Det finns flera
andra modeller för hur rotationen kan ske. En relativt enkel modell utgörs av
ämnesordsindexet i SCANP (Scandinavian periodicals index in economics and
business). Om man t.ex. söker i katalogen för året 1985 på termen
Administration får man bland underrubrikerna termen Libraries med en hänvisning
till rapport nr 207. Söker man sedan på Libraries får man också underrubriken
Administration med en hänvisning till samma rapportnummer. Här är det alltså
inte fråga om över‑ resp. underavdelning. Båda avdelningarna är likvärdiga.
Genom att kombinera två termer minskar man antalet sökbara rapporter avsevärt,
samtidigt som man ändå behåller möjligheten att söka efter ett bredare
ämnesområde.
Ytterligare några
exempel från SCANP (siffran anger referensnumret till artikeln i bibliografin):
ACCIDENT
INSURANCE ACCOUNTING
RESEARCH
ACCIDENTS 259 BUDGETING 385
COMPANIES BY INFORMATION 385
PROFITABILITY 191 ...
... UNCERTAINTY 385
LONG RANGE PLANNING 259 ACCOUNTING STANDARDS
... ACCOUNTING PROFESSION 425
SOCIAL PLANNING 259 ...
SOCIAL RESPONSIBILITY 259 PROFESSIONAL ETHICS 425
ACCIDENTS ACCOUNTING
SYSTEMS
ACCIDENT INSURANCE 259 ACCOUNTABILITY 467
COSTS 1129 BUDGETING 465
LONG RANGE PLANNING 259 CORPORATE CULTURE 467
... ADVERTISING
AGENCIES
SOCIAL PLANNING 259 ADVERTISING EFFECTIVE-
SOCIAL RESPONSIBILITY 259 NESS
1711 1732
ACCOUNTABILITY COMPANY RANKING 1714 1732
ACCOUNTING SYSTEMS 467 PROFITALIBITY 1711
CORPORATE SYSTEMS 467 PUBLIC ADVERTISING 1732
En artikel kan vara
indexerad på flera begrepp. Genom att alla är sökbara samtidigt, kan man välja
de begrepp vars kombination tros ligga inom intresseområdet. Inom accident
insurance finns t.ex. sju olika rapporter. Genom kombinationen med social
planning eller social responsibility kan man t.ex. välja dessa i stället för
en rapport som t.ex. handlar om finansiella risker eller om kostnader.
Post‑koordinerad indexering
Post-koordinerad
indexering innebär att ett dokument indexeras på olika termer, men att dessa
termer inte sättes i någon relation till varandra vid själva indexeringen,
utan relateras först till varandra när någon söker på dem. Man kan t.ex. indexera
en bok om "utlåningssystem på folkbibliotek" genom att indexera
"utlåning" och "folkbibliotek" var för sig. När man sedan
vill söka i systemet söker man t.ex. först på alla referenser som handlar om
"utlåning", för att sedan bland dessa söka på dem som handlar om
"folkbibliotek". En stor fördel med post-koordinering är att det
annars kan vara ganska svårt att fastställa en viss ordning mellan termerna,
och att det därför kräver ganska mycket tid i anspråk att göra det rätt.
Vad som dessutom kan uppfattas rätt av indexeraren kanske inte stämmer
överens med den uppfattning systemets användare har av ämnet.
Fadern till
post-koordinerad indexering var Mortimer Taube, som i början av 50-talet
konstruerade ett system med s.k. "uniterm-kort". Systemet byggde på
att man för varje enkel term skrev ett kort, där man sedan skrev dokumentens
accessionsnummer. När man sedan sökte på två eller tre begrepp jämförde man
bara de antecknade numren på korten.
ETT INDEXERINGSSYSTEMS EFFEKTIVITET
En viktig fråga man
ställer sig med jämna mellanrum är hur pass effektivt i att återvinna information
ett indexeringssystem är. Det väsentliga för en låntagare är att hitta de dokument
som är relevanta för hans/hennes informationsbehov. För att mäta effektiviteten
använder man sig av två centrala begrepp:
Precision
Med precision menar
man relationen mellan antalet relevanta dokument som återfunnits och antalet
återfunna dokument totalt. Det kan sedan mätas i procent enligt formeln:
relevanta återfunna dokument
p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100%
återfunna dokument totalt
Ett ex.:
a) Man är
intresserad av litteratur om fjärrlån och indexeringssystemet ger oss 50
träffar på termen "utlån". Termen "fjärrlån" finns inte.
Av dessa 50 dokument handlar ett tiotal enbart om fjärrlån och ytterligare ett tiotal om
fjärrlån som ett delämne.
20 relevanta dokument
p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑
x 100% = 40% precisionen är 40%
50 återfunna dokument
b) Vill man utöka
precisionen i systemet gör man bara så att man utvidgar indexeringen med den
mer specifika termen "fjärrlån". Man får då 10 träffar och alla 10
är relevanta.
10 relevanta dokument
p =‑‑--‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 100%
10 återfunna dokument
Precisionen står i
visst motsatsförhållande till det andra begreppet "återvinningsgrad".
Återvinningsgrad
Återvinningsgrad
(recall på engelska) är i vilken mån man har lyckats hitta alla dokument som
är relevanta för vårt ämne. Det kan uttryckas med följande formler:
relevanta återfunna dokument
r =
--‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100%
relevanta dokument i samlingen
Om man tar samma
exempel ovan:
1) När man söker på
begreppet "utlån" får man 50 träffar, varav 20 handlar om fjärrlån på
ett eller annat sätt. När man tänker efter, är det inte uteslutet att även
andra dokument i samlingen, som är indexerade på "bibliotek",
"forskningsbibliotek" eller andra termer, också delvis handlar om
"fjärrlån". Det enda sättet att mäta återvinningsgraden är att gå
igenom hela samlingen. Låt oss anta att vår samling är liten, och att man efter
genomgång lyckas hitta ett tjugotal andra rapporter som också berör
"fjärrlån", men som är indexerade under andra begrepp.
20 relevanta återfunna dokument
r
= ---‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑
x 100% = 50%
40 relevanta dokument i samlingen
2) I fallet b) ovan
kunde man söka direkt på "fjärrlån". Då blir det:
10 relevanta återfunna dokument
r =
----‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑-‑‑‑ x 100% = 25%
40 relevanta dokument i samlingen
Återvinningsgraden
kan man som regel inte räkna ut annat än genom stickprov vid undersökningar
av systemets användarvänlighet. Som vi ser innebär en ökad grad av precision
minskad återvinningsgrad. Det viktiga när man bygger upp ett indexeringssystem
är att hitta en balans mellan dessa två
motstridiga krav. Ju mera specifika termer man använder desto högre grad av
precision blir det, men desto mindre procent av den relevanta litteraturen
hittar man när man söker. Alltför generella termer är också meningslösa, eftersom
man då får litteratur som man inte är intresserade av och som man själv måste
sålla bort manuellt. Vid retrospektiv sökning är det fördelaktigare med ett
system som har en hög grad av precision, medan det vid löpande sökning är önskvärt
med ett system som har högre återvinningsgrad.
Uttömandegrad
Uttömmandegrad (eng.
exhaustivity) talar om till vilken grad de koncept och ämnen som behandlas i en
publikation återfinns med hjälp av de indexerade termerna. Måttet på uttömmandegrad
kan beräknas efter antalet begrepp som indexeraren får använda för att
indexera ett dokument. I de traditionella klassifikationssystemen utgår
man från högst trippelklassning. I indexering finns som regel större frihet.
Det är inte helt omöjligt att indexera vissa artiklar eller dokument med upp
till ett tjugotal begrepp. Verkligheten brukar dock begränsa möjligheterna.
Man skriver sällan om många ämnen samtidigt i samma skrift.
Specificitet
Specificitet (eng.
specificity) handlar om hur pass nära indexeringstermerna kommer det
begrepp man vill beskriva. Ordet "bröd" kan t.ex. vara ett bra ord i
ett indexeringssystem. I ett annat kanske man tycker att termen är alldeles för
generell, och "rågbröd" är kanske den term man vill ha.
Högre uttömmandegrad
kan öka återvinningsgraden, eftersom man får flera ingångar till samlingen.
Med högre specificitet når man högre grad av precision. Hög uttömmandegrad
och hög specificitet står inte i motsatsförhållande till varandra, utan de
kan förekomma samtidigt.
LITTERATUR
Aitchison, Jean,
Thesaurus construction : a practical manual / Jean Aitchison & Alan
Gilchrist. - 2.ed. - Aslib, 1987.
Austin, Derek,
PRECIS : a manual of concept analysis and subject indexing. - 2. ed. - The
British Library, 1984.
Buchanan, Brian, Theory of library classification. -
1979.
Cleveland, Donald
B., Introduction to indexing and abstracting / Donald B. Cleveland, Ana D.
Cleveland. - 2. ed. - Libraries Unlimited, 1990.
Documentation -
Guidelines for the establishment and development of monolingual thesauri. -
2. ed. - ISO, 1986. - (ISO/DIS 2788)
Documentation -
Guidelines for the establishement and development of multilingual thesauri. -
ISO, 1985. - (ISO 5964)
Foskett, A.C., The
subject approach to information. - 5. ed. - Library Association, 1996.
Indexers on indexing / edited by Leonard Montague Harrod.
- Bowker, 1978.
Ramsden, Michael J.,
An introduction to index language construction. - Bingley, 1974.
Rowley, Jennifer E., Abstracting and indexing. - Bingley,
1982.
Wellisch, Hans H., Indexing from A to Z. - Wilson, 1991.
Wynar, Bohdan S.,
Introduction to cataloging and classification. - 8. ed.
- . - Libraries
Unlimited, 1992.