Kunskapsorganisation

Bibliotekskunskap

Biblioteksrutiner

Boken kommer

Fjärrlån

Folkbibliotek

Förvärv

Klassifikation

Utlån

Klassificerade index

Dessa index är användbara när man söker en grupp av dokument i relaterade ämnen. Man börjar söka på det mest generella ämnet för att sedan fortsätta längre ner till mer specifika sådana. De fungerar på samma sätt som vanliga klassifikationssystem som UDK eller SAB, och behöver därför kompletteras med ett alfabetiskt register för att man skall kunna hitta rätt.

Ex. Bibliotekskunskap

Biblioteksadministration

Biblioteksrutiner

Förvärv

Klassifikation

Utlån

Fjärrlån

Biblioteksverksamhet

Boken kommer

Bibliotekstyper

Folkbibliotek

Forskningsbibliotek

Titelindexering

Många indexeringssystem bygger på att man i huvudsak indexerar titeln i dokumentet. Man förutsätter att titeln uttrycker dokumentets innehåll. En skillnad från katalogisering är att medan titeluppslaget endast går att söka på första filerande ordet i en alfabetisk katalog, kan man här söka på alla betydelsebärande ord. Man talar därför ofta om "permuterat titelindex".

Permuterat titelindex

Permuterat titelindex bygger på att man väljer sökord ur själva titeln. Alla informationsbärande ord är sökbara. Fördelen med systemet är att inmatningen kan göras nästan mekaniskt med mycket få regler att hålla reda på. Nackdelarna är att det kan vara svårare att finna vad man söker, eftersom man oftast söker på andra termer än dem som anges i titlarna. För vissa ämnen kan dessa system vara intressanta medan de för andra kan vara helt omöjliga och meningslösa. Ex.:

"Sjukdomar hos katter" ‑ båda orden sjukdomar och katter är sökbara.

"Hur var det förr" ‑ inget ord i titeln är sökbart.

Permuterat titelindex kan se ut på många olika sätt. Här presenteras några varianter.

KWIC

KWIC står för Keyword in context. Det är en alfabetisk lista ordnad efter varje viktigt ord som förekommer i titeln. Småord och prepositioner räknas inte med som sökord, liksom andra ord som man själv inte tycker skall vara sökbara av någon anledning. Sökordet placeras i sitt sammanhang (context), dvs i den delen av titeln där det finns. Efter sökordet fortsätter man med resten av titeln, inklusive alla de små ord som annars inte är sökbara. Ofta bestämmer man sig för att skriva ut ett maximalt antal tecken som får plats på en rad. Då kan slutresultatet se litet konstigt ut till en början. En del av titelns text faller bort. För att förstå sammanhanget har man bibehållit de ord i titeln som finns före sökordet, upp till ett bestämt antal tecken. Om sökordet förekommer alldeles i början av titeln, fylls den tomma platsen med den sista delen av titeln med början bakifrån i stället. Man markerar slutet och början på titeln med snedstreck eller på annat sätt.

Ex. "Det svenska lantbruket idag och imorgon",

"Hästar och kor och deras skötsel" och

"Din häst blir frisk utan penicillin" permuteras:

sökord referens

häst blir frisk utan penicillin/ Din 25

cilin/ Din häst blir frisk utan peni 25

skötsel/ Hästar och kor och deras 32

star och kor och deras skötsel/ Hä 32

et svenska lantbruket idag och imorg 28

frisk utan penicillin/ Din häst blir 25

ch deras skötsel/ Hästar och kor o 32

orgon/ Det svenska lantbruket idag o 28

Ord som inte är sökbara: din, blir, utan, och, deras, det, idag, imorgon

KWOC

KWOC betyder Keywords out of context. Sökordet flyttas ut och man behåller titeln som den är. Titeln behöver inte rotera som i förra exemplet. Titeln läses i rätt ordningsföljd, såsom man är van vid. Exempel:

sökord referens

Frisk Din häst blir frisk utan penicillin 25

Häst Din häst blir frisk utan penicillin 25

Hästar Hästar och kor och deras skötsel 32

Kor Hästar och kor och deras skötsel 32

Lantbruket Det svenska lantbruket idag och imor 28

Penicillin Din häst blir frisk utan penicillin 25

Skötsel Hästar och kor och deras skötsel 32

Svenska Det svenska lantbruket idag och imor 28

En variant på KWOC som kan förekomma, är att man i själva titeln inte behöver se själva sökordet, utan en asterisk eller annat tecken talar om att där är platsen för sökordet, ex.:

Frisk Din häst blir * utan penicilin 25

KWAC

Ytterligare en variant kallas KWAC (Keywords and context). Skillnaden mot den föregående är att de indexeringstermer som anges framför titeln inte nödvändigtvis behöver finnas i själva titeln, utan kan bestämmas av indexeraren antingen efter eget godtycke eller ur en termlista eller tesaurus. Exemplet ovan skulle se ut så här:

sökord referens

Djurskötsel Hästar och kor och deras skötsel 32

Framtidsfrågor Det svenska lantbruket idag och imor 28

Friskvård Din häst blir frisk utan penicillin 25

Hästar Din häst blir frisk utan penicillin 25

" Hästar och kor och deras skötsel 32

Kor Hästar och kor och deras skötsel 32

Lantbruk Det svenska lantbruket idag och imor 28

Mediciner Din häst blir frisk utan penicillin 25

Sverige Det svenska lantbruket idag och imor 28

Typografiskt kan man ange titlarna på två olika sätt i både KWOC och KWAC. Antingen genom att skriva ut hela titeln, oberoende av längd, eller som i exemplen ovan genom att avgränsa texten till vad som får plats på en rad. Radens längd bestämmer man själv från början.

NEPHIS

NEPHIS står för Nested phrase indexing system. Skillnaden mot systemen ovan är att här tar man inte enstaka ord eller begrepp, utan man delar titeln i logiska delar som går att förstå. Ex. "Online information retrieval in public libraries" kan efter en enkel analys indelas i följande beståndsdelar: "online", "information retrieval", "public libraries". Alla dessa delar skall vara sökbara som första led. I andra led analyserar man de resterande delarna och ser vilken som är lämpligast att foga till det redan valda, och så fortsätter man tills alla bitarna är med.

Söker man "information retrieval" är det t.ex. mer logiskt att fortsätta med "online" än med "public libraries". Flera ex: (sorterade i alfabetisk ordning)

sökord referens

Art of indexing, the, 22

Bibliotek, svenska, klassifikationssystem för, 34

Indexing, the art of, 22

Industry, microcomputers in, 48

Information retrieval, online, in public libraries 31

Information retrieval systems, library and 35

Klassifikationssystem för svenska bibliotek 34

Library and information retrieval systems 35

Microcomputers in industry 48

Online information retrieval in public libraries 31

Public libraries, online information retrieval in, 31

Retrieval systems, information, library and, 35

Svenska bibliotek, klassifikationssystem för, 34

Facetterat index

Ett facetterat indexeringssystem bygger på att man ordnar indexeringstermerna systematiskt i huvudklasser och att underindelningen görs genom tillägg efter de olika egenskaper som kan tänkas vara möjliga inom ämnet. Det kan t.ex. vara formen, verksamheten eller materialet. Ranganathan, som var först med att introducera begreppet facett, räknade upp flera kategorier av facetter grupperade kring begreppen personlighet, material, energi, plats och tid (förkortat PMEST). En fördel med facetterade system är att underindelningen i tabellerna inte behöver göras i förväg, utan efter behov. Detta sparar mycket utrymme i tabellerna. I motsats till facetterat index kan enumerativt index användas. Enumerativt index innebär att man räknar upp alla tilltänkta begrepp redan från början. Ex. på båda varianter:

Enumerativt system: Facetterat system:

Physiology (process facet)

Respiration Physiology

Reproduction Respiration

Water animals Reproduction

Physiology of water animals

Respiration of water animals (animals facet)

Reproduction of water animal (by habitat subfacet)

Land animals

Physiology of land animals Water animals

Respiration of land animals Land animals

Reproduction of land animals (by taxonomic subfacet)

Invertebrates

Physiology Invertebrates

Respiration Insects

Reproduction Vertebrates

Water invertebrates Reptiles

Physiology (Indexeraren själv kan efter behov

Respiration använda dessa facetter och kombinera

Reproduction dem. Resultatet blir detsamma som

Land invertebrates. i den vänstra kolumnen)

Physiology

Respiration

Reproduction

Insects

…

Water insects

… Ex. hämtat ur: Buchanan, Theory of

Vertebrates etc. library classification, 1979, s. 28-30.

Koordinerad indexering

Med koordinerad indexering menar man att man kombinerar två eller flera enkla termer för att bilda en ny klass. Ett dokuments innehåll går sällan att precisera med endast ett begrepp. Allmänt är det just detta man oftast menar med indexering. Det går att skilja mellan två huvudgrupper: pre‑ och post-koordinerade system.

Pre-koordinerad indexering

Vid pre-koordinerad indexering betraktas sammansatta ämnen som enheter. Man analyserar först de i begreppet ingående termerna för att sedan placera dessa efter de regler som det valda indexeringsspråket anger. Det är indexeraren som bestämmer i vilken ordning termerna skall få vara. Vid post-koordinerad indexering betraktas varje delämne som oberoende och ges en lämplig term. Termerna kombineras först vid sökningen. Här nedan skall vi först ta upp olika former av pre-koordinerad indexering.

PRECIS

PRECIS, som betyder PREserved Context Index System, är ett pre-koordinerat indexeringssystem. Det har använts bl.a. i den brittiska nationalbibliografin. Skillnaden är att man här kan söka varje enskild term och redan där se i vilken betydelse som författaren använt termen. Genom att termen länkas till andra indexeringstermer med vilka den hör ihop, ser man om man har kommit rätt. Termerna står i en noggrant analyserad syntaktisk relation till varandra. Systemet kräver mycket av indexeraren. När en gång relationerna mellan termerna är angivna roteras termerna automatiskt med hjälp av datorer. Man använder sig av "role operators" (styrkoder). De viktiga är:

styrkod 1 objektet

styrkod 2 aktionen, händelseförloppet

styrkod 3 agenten

styrkod o geografisk omgivning

styrkod p part eller del av objektet

styrkod q kvasi-generella relationer

styrkod r sällskap, kollektiva substantiv

För att rotationen mellan termerna inte skall skapa oväntade kombinationer och missförstånd har man sedan delat dem i "lead", qualifier" och "display". I princip skall samtliga termer få vara "lead". Man kan dock utelämna vissa alltför specifika eller alltför generella termer. Qualifier utvidgar kontexten, dvs fungerar som ett överordnat begrepp till "lead", medan "display" avgränsar termens betydelse. Qualifier och display behöver inte alltid finnas.

Varje qualifier som ytterligare utvidgar kontexten placeras på samma rad efter varandra. Display placeras på raden under och varje display som ytterligare avgränsar betydelsen placeras därefter.

Ordningen ser ut så här:

LEAD A. Qualifier B. Qualifier C. Qualifier D

LEAD B. Qualifier C. Qualifier D

Display A

LEAD C. Qualifier D

Display B. Display A

LEAD D

Display C. Display B. Display A

Ex:

ANIMATION. Computers. Television industry. United States.

COMPUTERS. Television industry. United States.

Animation

TELEVISION INDUSTRY. United States.

Computers. Animation.

UNITED STATES

Television industri. Computers. Animation.

Annat ex.:

ADMINISTRATION. Libraries. Colleges. Great Britain.

LIBRARIES. Colleges. Great Britain.

Administration.

COLLEGES. Great Britain.

Libraries. Administration.

Great Britain är inte sökbart här, däremot United States ovan. Anledningen är att man inte kan söka allt möjligt under ett land. Industry är ett ämne som går, men inte Colleges.

Annat ex.:

ADMINISTRATION. Development projects. Rural regions. Deve-

loping countries

DEVELOPMENT PROJECTS. Rural regions. Developing countries

Administration

RURAL REGIONS. Developing countries

Development projects. Administration

DEVELOPING COUNTRIES

Rural regions. Development projects. Administration.

Det stora arbete det innebar att precisera de olika styrkoderna, innan rotationen kunde göras mekaniskt gjorde att BNB slutade med PRECIS i och med utgången av 1990-års bibliografi. Nu har man ett enklare indexeringssystem, benämnt COMPASS, där man visserligen följer huvudprinciperna för PRECIS, med olika rolloperatorer och en särskild syntax, men man går inte så långt i specificitet. Vidare har man placerat geografiska benämningar utanför. I och med att indexeringstermerna anger ett DDC-tal, kan man sedan gå till nationalbibliografins första del, som är ordnad systematiskt, och söka vidare där.

Andra roterande system

Det finns flera andra modeller för hur rotationen kan ske. En relativt enkel modell utgörs av ämnesordsindexet i SCANP (Scandinavian periodicals index in economics and business). Om man t.ex. söker i katalogen för året 1985 på termen Administration får man bland underrubrikerna termen Libraries med en hänvisning till rapport nr 207. Söker man sedan på Libraries får man också underrubriken Administration med en hänvisning till samma rapportnummer. Här är det alltså inte fråga om över‑ resp. underavdelning. Båda avdelningarna är likvärdiga. Genom att kombinera två termer minskar man antalet sökbara rapporter avsevärt, samtidigt som man ändå behåller möjligheten att söka efter ett bredare ämnesområde.

Ytterligare några exempel från SCANP (siffran anger referensnumret till artikeln i bibliografin):

ACCIDENT INSURANCE ACCOUNTING RESEARCH

ACCIDENTS 259 BUDGETING 385

COMPANIES BY INFORMATION 385

PROFITABILITY 191 ...

... UNCERTAINTY 385

LONG RANGE PLANNING 259 ACCOUNTING STANDARDS

... ACCOUNTING PROFESSION 425

SOCIAL PLANNING 259 ...

SOCIAL RESPONSIBILITY 259 PROFESSIONAL ETHICS 425

ACCIDENTS ACCOUNTING SYSTEMS

ACCIDENT INSURANCE 259 ACCOUNTABILITY 467

COSTS 1129 BUDGETING 465

LONG RANGE PLANNING 259 CORPORATE CULTURE 467

... ADVERTISING AGENCIES

SOCIAL PLANNING 259 ADVERTISING EFFECTIVE-

SOCIAL RESPONSIBILITY 259 NESS 1711 1732

ACCOUNTABILITY COMPANY RANKING 1714 1732

ACCOUNTING SYSTEMS 467 PROFITALIBITY 1711

CORPORATE SYSTEMS 467 PUBLIC ADVERTISING 1732

En artikel kan vara indexerad på flera begrepp. Genom att alla är sökbara samtidigt, kan man välja de begrepp vars kombination tros ligga inom intresseområdet. Inom accident insurance finns t.ex. sju olika rapporter. Genom kombinationen med social planning eller social responsibility kan man t.ex. välja dessa i stället för en rapport som t.ex. handlar om finansiella risker eller om kostnader.

Post‑koordinerad indexering

Post-koordinerad indexering innebär att ett dokument indexeras på olika termer, men att dessa termer inte sättes i någon relation till varandra vid själva indexeringen, utan relateras först till varandra när någon söker på dem. Man kan t.ex. indexera en bok om "utlåningssystem på folkbibliotek" genom att indexera "utlåning" och "folkbibliotek" var för sig. När man sedan vill söka i systemet söker man t.ex. först på alla referenser som handlar om "utlåning", för att sedan bland dessa söka på dem som handlar om "folkbibliotek". En stor fördel med post-koordinering är att det annars kan vara ganska svårt att fastställa en viss ordning mellan termerna, och att det därför kräver ganska mycket tid i anspråk att göra det rätt. Vad som dessutom kan uppfattas rätt av indexeraren kanske inte stämmer överens med den uppfattning systemets användare har av ämnet.

Fadern till post-koordinerad indexering var Mortimer Taube, som i början av 50-talet konstruerade ett system med s.k. "uniterm-kort". Systemet byggde på att man för varje enkel term skrev ett kort, där man sedan skrev dokumentens accessionsnummer. När man sedan sökte på två eller tre begrepp jämförde man bara de antecknade numren på korten.

ETT INDEXERINGSSYSTEMS EFFEKTIVITET

En viktig fråga man ställer sig med jämna mellanrum är hur pass effektivt i att återvinna information ett indexeringssystem är. Det väsentliga för en låntagare är att hitta de dokument som är relevanta för hans/hennes informationsbehov. För att mäta effektiviteten använder man sig av två centrala begrepp:

Precision

Med precision menar man relationen mellan antalet relevanta dokument som återfunnits och antalet återfunna dokument totalt. Det kan sedan mätas i procent enligt formeln:

relevanta återfunna dokument

p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100%

återfunna dokument totalt

Ett ex.:

a) Man är intresserad av litteratur om fjärrlån och indexeringssystemet ger oss 50 träffar på termen "utlån". Termen "fjärrlån" finns inte. Av dessa 50 dokument handlar ett tiotal enbart om fjärrlån och ytterligare ett tiotal om fjärrlån som ett delämne.

20 relevanta dokument

p = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 40% precisionen är 40%

50 återfunna dokument

b) Vill man utöka precisionen i systemet gör man bara så att man utvidgar indexeringen med den mer specifika termen "fjärrlån". Man får då 10 träffar och alla 10 är relevanta.

10 relevanta dokument

p =‑‑--‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 100%

10 återfunna dokument

Precisionen står i visst motsatsförhållande till det andra begreppet "återvinningsgrad".

Återvinningsgrad

Återvinningsgrad (recall på engelska) är i vilken mån man har lyckats hitta alla dokument som är relevanta för vårt ämne. Det kan uttryckas med följande formler:

relevanta återfunna dokument

r = --‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100%

relevanta dokument i samlingen

Om man tar samma exempel ovan:

1) När man söker på begreppet "utlån" får man 50 träffar, varav 20 handlar om fjärrlån på ett eller annat sätt. När man tänker efter, är det inte uteslutet att även andra dokument i samlingen, som är indexerade på "bibliotek", "forskningsbibliotek" eller andra termer, också delvis handlar om "fjärrlån". Det enda sättet att mäta återvinningsgraden är att gå igenom hela samlingen. Låt oss anta att vår samling är liten, och att man efter genomgång lyckas hitta ett tjugotal andra rapporter som också berör "fjärrlån", men som är indexerade under andra begrepp.

20 relevanta återfunna dokument

r = ---‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑ x 100% = 50%

40 relevanta dokument i samlingen

2) I fallet b) ovan kunde man söka direkt på "fjärrlån". Då blir det:

10 relevanta återfunna dokument

r = ----‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑-‑‑‑ x 100% = 25%

40 relevanta dokument i samlingen

Återvinningsgraden kan man som regel inte räkna ut annat än genom stickprov vid undersökningar av systemets användarvänlighet. Som vi ser innebär en ökad grad av precision minskad återvinningsgrad. Det viktiga när man bygger upp ett indexeringssystem är att hitta en balans mellan dessa två motstridiga krav. Ju mera specifika termer man använder desto högre grad av precision blir det, men desto mindre procent av den relevanta litteraturen hittar man när man söker. Alltför generella termer är också meningslösa, eftersom man då får litteratur som man inte är intresserade av och som man själv måste sålla bort manuellt. Vid retrospektiv sökning är det fördelaktigare med ett system som har en hög grad av precision, medan det vid löpande sökning är önskvärt med ett system som har högre återvinningsgrad.

Uttömandegrad

Uttömmandegrad (eng. exhaustivity) talar om till vilken grad de koncept och ämnen som behandlas i en publikation återfinns med hjälp av de indexerade termerna. Måttet på uttömmandegrad kan beräknas efter antalet begrepp som indexeraren får använda för att indexera ett dokument. I de traditionella klassifikationssystemen utgår man från högst trippelklassning. I indexering finns som regel större frihet. Det är inte helt omöjligt att indexera vissa artiklar eller dokument med upp till ett tjugotal begrepp. Verkligheten brukar dock begränsa möjligheterna. Man skriver sällan om många ämnen samtidigt i samma skrift.

Specificitet

Specificitet (eng. specificity) handlar om hur pass nära indexeringstermerna kommer det begrepp man vill beskriva. Ordet "bröd" kan t.ex. vara ett bra ord i ett indexeringssystem. I ett annat kanske man tycker att termen är alldeles för generell, och "rågbröd" är kanske den term man vill ha.

Högre uttömmandegrad kan öka återvinningsgraden, eftersom man får flera ingångar till samlingen. Med högre specificitet når man högre grad av precision. Hög uttömmandegrad och hög specificitet står inte i motsatsförhållande till varandra, utan de kan förekomma samtidigt.

LITTERATUR

Aitchison, Jean, Thesaurus construction : a practical manual / Jean Aitchison & Alan Gilchrist. - 2.ed. - Aslib, 1987.

Austin, Derek, PRECIS : a manual of concept analysis and subject indexing. - 2. ed. - The British Library, 1984.

Buchanan, Brian, Theory of library classification. - 1979.

Cleveland, Donald B., Introduction to indexing and abstracting / Donald B. Cleveland, Ana D. Cleveland. - 2. ed. - Libraries Unlimited, 1990.

Documentation - Guidelines for the establishment and development of monolingual thesauri. - 2. ed. - ISO, 1986. - (ISO/DIS 2788)

Documentation - Guidelines for the establishement and development of multilingual thesauri. - ISO, 1985. - (ISO 5964)

Foskett, A.C., The subject approach to information. - 5. ed. - Library Association, 1996.

Indexers on indexing / edited by Leonard Montague Harrod. - Bowker, 1978.

Ramsden, Michael J., An introduction to index language construction. - Bingley, 1974.

Rowley, Jennifer E., Abstracting and indexing. - Bingley, 1982.

Wellisch, Hans H., Indexing from A to Z. - Wilson, 1991.

Wynar, Bohdan S., Introduction to cataloging and classification. - 8. ed.

- . - Libraries Unlimited, 1992.