Inspire er et open source taggingsystem, der er udviklet i samarbejde mellem RDFined, DR og Ritzau. Systemet kører som en webservice, og tager som input en tekst på dansk. Output er en række forskellige metadata:

  • Nøgleord
  • Navne (personer, organisationer, steder, m.m.)
  • Emner
  • Relateret indhold

Nøgleord

Nøgleord er den mest grundlæggende form for metadata, der kan sige noget om indholdet af en tekst. Nøgleord er enkeltord, der optræder i den analyserede tekst og hvis relevans/vægt vurderes ud fra nogle simple principper vedrørende frekvens og placering i teksten.

Det centrale ved udtrækket af nøgleord er den algoritme, som tildeler nøgleordene vægt, for én ting er at rangordne nogle ord og navne efter antal og placering i en tekst, noget andet er, at bruge dette til at karakterisere indholdet, så det f.eks. kan bruges til finde relaterede tekster, emneklassificere, skrive en opsummeringer, eller kortlægge, hvad teksten så faktisk "udtaler" om de involverede begreber og navne.

Inspire tager en række mere avancerede metoder i brug i rankeringsalgoritmen, som betyder, at systemet i nogle tilfælde er bedre til at vurdere et nøgleords relevans end en almindelige søgemaskine er.

Navnegenkendelse

Inspire genkender navne i en tekst. Dette er forskelligt fra at udtrække nøgleord, fordi der er tale om, at flere ord skal slås sammen genkendes som én term. Dette kræver en viden om, at ordene hænger sammen, som enten kan fås ved at anvende en positivliste af navne, men også ved grammatisk viden om teksten, som navnet indgår i. Der er tale om en relativ banal opgave, som alligevel kompliceres af en række faktorer.

Såfremt Inspire genkender et ord som navn registreres en række features: 

  • Tekststrengen, der repræsenterer navnet
  • Tilhørsforhold til kendte opslagsværker (Wikipedia, DBPedia, Wikidata og via linked data evt. andre relevante)
  • PPO-kategori (Person, organisation, sted, begivenhed, fysisk ting)
  • Rankeringsvægt

I forskellige sammenhænge kan det være nyttigt entydigt at kunne udtrække og klassificere navne. Det gør det f.eks. nemt hurtigt at danne sig et overblik over, hvilke steder, der omtales i ens materiale. Ligeledes giver det mulighed for at linke videre fra teksten til relevante opslagsværker vedrørende de pågældende navne. Der er i det hele taget mange forskellige anvendelsesmuligheder til klassificerede navne.

Genkendelse af navne kan i princippet foregå rent grammatisk. En korrekt grammatisk analyse vil altid kunne udpege alle egennavne i en tekst. Problemet er, at der ikke findes en automatisk grammatisk analyse til dansk, som kan håndtere alle mulige tekster fejlfrit.

En anden mulighed er at bruge en positivliste af navne. Problemet med denne tilgang er, at navne, især forkortelser kan være meget flertydige. Afhængigt af ambitionsniveauet udgør det også en hvis udfordring at opbygge en passende positivliste.

Inspire anvender en hybrid aproach, hvor en grammatisk analyse anvendes i kombination med Wikipedia som navnepositivliste. Bemærk at Wikipedia ikke eksplicit fortæller om noget er et navn, men at der alligevel er måder at gætte sig frem til det på.

Emner

Emner er ord, der betegner en indholdskategori, f.eks. "Sport", "Politik", "Musik". Listen af emner kan være mere eller mindre detaljeret. 

Emneklassifikation handler om at tilknytte ét eller flere emner fra en på forhånd defineret liste eller taksonomi til en tekst. Typisk bliver automatisk emneklassifikation bygget ved hjælp af emneliste med tilknyttede nøgleord, samt en heuristik, der fastlægger reglerne for sammenhæng mellem nøgleord i en tekst og listen af emner.

Med en del manuelt arbejde kan man i de fleste tilfælde komme rimelig langt med god automatisk klassifikation.

I Inspire har vi eksperimenteret med at anvende den kategorisering, der findes i Wikipedia. Der er tale om en ret ustruktureret og anarkistisk kategorisering, fordi de mange forskellige brugere anvender ret foreskellige kritierer og detaljeringsniveuaer, og tit er der ikke opmærksomhed på, hvordan en kategorisering på et lavt niveau hænger sammen med øvre niveauer. De foreløbige eksperimenter peger i retning af, at Wikipedias kategorier sammen med Inspires tagging kan producere en brugbar emneklassifikation.

Relateret indhold

Inspire kan også fungere som en avanceret søgemaskine, der kan fremsøge relateret indhold. Søgningen er baseret på listen af nøgleord og genkendte navne, og kan som regel finde frem til tekster, der indholdsmæssigt handler om samme emner og sager, som den tekst, man bruger som input.

Skip to end of metadata
Go to start of metadata
  • No labels