Autotaggeren uddrager automatisk forskellige former for tags/centrale ord fra artiklerne:
- Personer, organisationer og steder
- Emneord
- Kategorier
Se også DR-Guiden Workbench.
Tekstanalyse
Autotaggeren udfører flere forskellige slags analyser af teksten for så præcist som muligt at kunne identificere, hvad de enkelte ord i teksten refererer til. En identifikation består enten af et ordbogsopslag, en reference til Wikipedia eller i det mindste en overordnet klassifikation (navn eller emne).
Personer, organisationer og steder
Personer, organisationer og steder dækker ord, som omtaler navngivne ting. Det er nyttigt at kunne udpege navnestof, fordi det giver en oplagt og nem mulighed for at vise relateret indhold.
Navnestof er derudover en vigtig kilde til overordnet kategorisering af, hvad artikler handler om, f.eks. hvis en artikel omhandler politikere (politik), navne på virksomheder (Vestas = alternativ energi, Danish Crown = fødevarer, osv.).
Emneord
Emneord, er ord indeholdt i teksten, der siger noget centralt om tekstens indhold, f.eks. "hjælpepakke", "eurozone" og "bankpakke" i:
Emneord kan på linje med navnestof anvendes til at vise relaterede artikler på specifikke emner omtalt i teksten. Emneord har den ulempe, at de kan være for specifikke i forhold til et bestemt emne. Det er her kategorier kommer ind i billedet.
Kategorier
Kategorier er overordnede emneord, som IKKE nødvendigvis forekommer i den analyserede tekst. Kategorier vil typisk være at foretrække frem for emneord, fordi de er mere overordnede og bedre afspejler et givent emne (ved at underordne en række meget specifikke emneord).
Kategorierne er ligeledes hentet fra Wikipedia. Vi mangler stadigvæk at sortere lidt i udvalget, derfor de lidt spøjse kategorier som f.eks. "Lovende artikler".
Vægtberegning
Ud over at identificere centrale ord, foretager systemet også en vægtberegning, som betyder, at man kan se, hvor indholdsmæssigt centralt de enkelte tags er i forhold til teksten.
Vægtberegningen er vigtig, når artikler skal genfindes og rangeres i forhold til en given søgning eller anden form for uddrag af artikler, f.eks. ved generering af en top-10 list over personomtale (se Barometer).
Adgang til autotagger
Alle nyhedsartikler, som publiceres på dr.dk bliver autotagget. Resultatet kan ses på forskellige måder:
- Visuelt i den såkaldte DR-Guiden Workbench
- Via Inspire's REST-API
Vedligehold
Som udgangspunkt er taggeren vedligeholdelsesfri. Det skal forstås på den måde, at systemet anvender eksterne ordbogskilder og leksika. Det er dermed ikke nødvendigt, at brugeren f.eks. selv fodrer systemet med navnestof, som i langt de fleste tilfælde vil være at finde i Wikipedia. Hvis man vil, er det dog en mulighed.