Info-blogger

Info-blogger

Information - sprog - kommunikation

Beretninger fra en lingvist i informationsvidenskaben

"Journalisere", arkivere, indeksere - hvad kan støvet viden i informationsvidenskaben bruges til?

indekseringPosted by volkmar 09 Apr, 2015 11:09
Jeg vil i det her blogindlæg arbejde med en artikel i Jyllandsposten (JP) fra den 15. marts 2015 ("Vækstudspillet, der forsvandt", Indblik, s. 4-6). Vha. artiklen kan vises, hvordan nogle centrale og traditionelle must-emner i informationsvidenskaben som indeksering kan bruges til at forstå real-world cases bedre, i hvert fald placere dem i en informationsvidenskabelig kontekst og diskurs, hvor de giver mening (om cases i informationsvidenskab se mit blogindlæg om min første årgangsforelæsning i FS 2015).

Tit er det bare sprog der er forskelligt og deler vandene. Det er da klart, at en journalist, en ekspert i forvaltningsret eller en funktionær i et ministerium taler anderledes end en IVA-uddannet informationsspecialist - om det samme. Det vil titlen "Journalisere, arkivere, indeksere" antyde. Det første ord havde jeg for øvrigt ikke kendt indtil jeg så artiklen for første gang.

Hvordan kan en real-world-problematik "oversættes" til informationsvidenskabelige termer og den måde, vi tænker informationsorganisation på?

Her kommer historien.

I Helle Thorning-Schmidts nytårstale omtalte hun et "nyt vækstudspil" til danskerne, som så alligevel ikke blev fulgt op på af regeringen. Det gjorde så JP den 9. januar 2015 ved at søge aktindsigt hos ministerierne "i deres dokumenter vedrørende nytårstalen" (s. 4).

Det viste sig, at kun 11 af de 20 ministerier overholdt svarfristen på 7 dage, af de resterende 9 kom det sidste svar på dag 28 (på Udenrigsministeriets brev venter JP stadigvæk). Hvorfor det?

JP (som her spiller rollen af "brugeren") havde jo en "meget banal forespørgsel", "anmodningen er meget præcis, og de [dvs. ministeriernes medarbejdere] kan ikke være i tvivl om, hvad de skal finde frem." (s. 5).

Så "brugeren" havde et uproblematisk informationsbehov, hvor JPs egne ord, "dokumenter vedrørende nytårstalen", skulle være nemme at oversætte til ministeriernes sprog og til de termer, som organisationernes systemer bruger til genfinding. Så JP havde en åbenlys forventning om, at forspørgselens ordlyd indeholdt termer, der allerede findes i eller kan matches til organisationens interne beskrivelsesvokabular. Et problem mellem ukontrolleret søgesprog og kontrollerede indekstermer.

Efter Statsministeriet havde sendt nytårstalen ud, journaliserede 4 af ministerierne denne mail (s. 6).

Hvad betyder "at journalisere"? Min fortolkning er at dokumenterne blev gemt og tilgængeliggjort, dvs. journalisering = arkivering (gemme dokumentet) + indeksering (at gøre et dokument søgbart/tilgængeligt).

"Ministerierne har så forskellig fortolkning af, hvad der skal journaliseres." (s. 6) - lyder det også bekendt? Jeg tænker på kriterier som brugergruppe, kontekst, domæne, som ikke kun afgør HVORDAN et dokument repræsenteres, men også OM et dokument overhovedet indgår i es samling/database/et arkiv.

Om dette mener Oluf Jørgensen, ekspert i offentlighedslovgivningen ved Danmarks Journalisthøjskole, at fx taler, "som de [ministerierne] ikke bidrager til" (s. 6), kunne være udenfor journaliseringspligt. Dvs. kun sådan nogle dokumenter er del af en ministeriel database over korrespondancer, hvor selve ministeriet figurer som (med)forfatter. "Forfatter" er i vores verden et formelt-deskriptivt indekseringskendetegn af dokumenter, som står i modsætning til de mere "bløde" dokument-features som de indholdsmæssige.

En anden ekspert i offentlig forvaltning, Sten Bønsing, nævner "aviser, tidsskrifter, reklamer og mødeindkaldelser" (s. 6), som heller ikke skal journaliseres. Igen sker denne ekskludering pga. et formelt kendetegn i metadata, her, hvad vi ville betegne som "materialetyper". Indholdsmæssige træk af dokumenter ("aboutness", hvad handler dokumentet om?) nævnes igen ikke i denne sammenhæng.

Vi læser videre.

Der slås fast, at der i ministerierne findes "forskellige beskrivelser af deres interne korrespondance" (s. 6). Det er problemet af divergerende indekseringspraksisser, et manglende kontrolleret vokabular og eventuelt divergerende anvendelse af det samme vokabular gennem flere personer (indeksør-konsistens).

"For mens Statsministeriet konkret beskriver indholdet af de mange mails som f.eks. 'vækstudspil', 'tjek af tekst til nytårstale 2015-BNP-vækst-tal' og 'økonomi', nøjes Finansministeriet med mere nøgternt at døbe korrespondancerne 'Tjek', 'Vedr. fakta tjek til taleudkast til nytårstale 2015' og 'Vedr. statsministerens nytårstale'.

Det er klart, at der er helt forskellige principper i emneindeksering i spil. Nogle af dem har med forskellige indekseringstraditioner at gøre, sml. ovenstående bemærkning om Statsministeriets mere uddybende og "farverige" måde at indeksere på vs. Finansministeriet "mere nøgterne" stil.

Men her kan også identificeres mere "håndfaste" principper i indekseringsteori. Tænk på forskelle i indekseringsdybde i 'vækstudspil' vs. 'statsministerens nytårstale' og brug af sproglige fraser (ikke ORD!), hvor emneord optræder indlejret i konstruktioner med andre emneord ('tjek til taleudkast til nytårstale'). Man kan også have en formodning om, at emneord-konstruktioner ikke er begrænset på konstateringer (beskrivende, informerende sproghandling), men også kan have status af en opfordring/instruks ("tjek!"). Der er vi inde i sproghandlingsteori, men den skal vi lige springe over ...

Eksemplerne fra ministeriet viser endvidere en vis syntaktisk orden af emneordkæder, som kan minde om subject headings ('...-BNP-vækst-tal'). Til sidst kan der muligvis identificeres semantiske relationer mellem termerne, i eksemplerne foroven er der handling ('vækstudspil') og det område som er vedrørt af handlingen ('økonomi') knyttet sammen, altså en associativ relation.

For en informationsspecialist med informationsvidenskabelige ambitioner er der noget at se til, selve Oluf Jørgensen beklager, "at det er umuligt at gætte, at 'tjek' dækker over 'vækstudspil'" (s. 6). Selvfølgelig kan man ikke det!

Noget andet, der er informationsvidenskabeligt interessant ved artiklen, er at mailkorrespondancer er, som alt brevagtig kommunikation, grundlæggende noget sekventielt noget. De enkelte dokumenter (mails, breve) er tidsligt ordnet, bortset fra det første og det sidste dokument er der altid en forgænger og en efterfølger. Oven i købet er mailkorrespondancer indholdsmæssigt relaterede, du svarer på en email, henviser til noget, der er blevet sagt i den foregående, og du forudsætter implicit nogle at de ting og sager, der er blevet eksplicit omtalt i de tidligere mails.

Det udgør det, hvad der i email-sproget bliver kaldt en tråd. Og det er også det, JP med ministerierne kappes om.

Finansministeriet journaliserer "i tråde", hvad efter min fortolkning betyder at indeksere hele tråden med eet sæt metadata - og ikke indeksere de enkelte mails i tråden, de er del af.

Denne praksis giver nogle problemer fra en informationsvidenskabelig optik, fordi dokumentbegrebet udvides til hele sekvenser af dokumenter, som er så alene søgbare. Relevansen af den enkelte mail som selvstændigt dokument (og kommunikationsenhed) nedtones. Ministeriet fremhæver også, at det er først og fremmest praktiske grunde til at håndtere hele tråden i stedet for de enkelte mail.

Når jeg læser sådanne artikler bliver jeg ikke kun glad på min videnskabs vegne - men især på mine studerendes. Her er et rigt felt hvor informationsvidenskabelig viden kan tages i brug for at forstå bedre hvad der foregår i virkeligheden. Eller for at gøre noget ved den.

Jeg personligt kan egentlig godt nøjes med det første - men det er nok stof for et nyt indlæg.



  • Comments(0)//infoblogger.informationsspecialisten.dk/#post5