Artikeln är över 5 år gammal

Kaj Arnö: Vem ligger bakom den världsbild som du googlar fram? Därför bör du bry dig om Wikidata

Kaj Arnö
Kaj Arnö Bild: Emir Uzun

Är det viktigt att veta något om Wikidata? I högsta grad menar Kaj Arnö i denna kolumn:

Jag vill bryta en lans för Wikidata, här för Svenska Yle och dess kulturredaktion.

Men redan namnet avskräcker. Vad ska "något med data" ha med kultur att skaffa?

Wikidata är en fri kunskapsdatabas, som beskriver världen. Både människa och maskin kan läsa och bearbeta Wikidata.

Strukturerna i Wikidata används av Wikipedia, men också av Google och Apple, Yle och Svenska Litteratursällskapet.

Jaha, men vad angår det mig?

Formar en världsbild

Svar: En hel del. Wikidata formar vår världsbild. Närmare bestämt: Wikidata ÄR vår gemensamma världsbild, som håller på att förhandlas fram, just nu.

Och förhandlingsbordet är öppet även för dig.

Mååhe? Kan det stämma? Om Wikidata är så viktigt, hur kan dess utveckling ske i lönndom? Varför syns inte Wikidata?

Svar: Nej, Wikidata utvecklas inte i skymundan. Wikidata är öppen data, och vem som helst får påverka Wikidata enligt samma vedertagna och etiskt högtstående principer som Wikipedia.

Jordglob på sandstrand.
Olika världsbilder Bild: Mostphotos

Tråkigt på ytan

Kruxet är bara att Wikidata på ytan är tråkigt. Få vill befatta sig med något som får frivilligarbete kring humaniora och vetenskap att bli lika skoj som att fylla i en skattedeklaration.

En massa siffror ska plitas ned i bestämda format, och när man lämnat in sitt mödosamma arbete, kan det plötsligt bli back.

Den egentliga orsaken varför Wikidata syns så lite är ändå en annan.

Wikidata är bara i början.

Tänk dig Internet i mitten av 1990-talet. Visst fanns det artiklar om Internet, som sades vara på kommande och bli något stort.

Nördarna var ändå de enda som brydde sig, plus enstaka visionärer.

Problemet som Wikidata ska lösa heter metadata. Data om data.

En databas som beskriver grundbegrepp och hur de förhåller sig till varandra.

Händer som skriver på en dator.
Data om data Bild: Andrey Popov

En ny treenighet

Låt mig komma med en teologisk analogi. Jag vill jämföra treenigheten med Wikipedia, Wikimedia Commons och Wikidata.

Wikipedia är Gud, i denna drastiska liknelse. Alla har hört talas om Wikipedia.

Wikipedia tarvar ingen större förklaring, det är ett uppslagsverk, och alla har en uppfattning om vad ett uppslagsverk är.

Wikimedia Commons får rollen av Jesus, men man får inte ta liknelsen för bildligt.

Bilder är vad Wikimedia Commons handlar om, och ljud, alltså innehåll som kan illustrera Wikipedia, för att någon donerat bilden till allmänheten.

Wikidata blir därmed den Helige Ande.

Målning av Jesus uppståndelse.
Sonen = Wikimedia commons Bild: Flickr/Michele Lamberti

Endast förståsigpåare har någon närmare uppfattning om rollen Wikidata riktigt spelar, men Wikipedia vore inte en fullständig helhet utan både Wikimedia Commons (som ger innehållet) och Wikidata (som ger strukturen).

I hopp om att jag inte förlorat dig som läsare, utan ruskat dig vaken eller åtminstone väckt din nyfikenhet, vill jag dra några krigshistorier.

Jag har en anekdot om Despacito och tre exempel på icke-triviala frågor Wikidata kan besvara: Tove Janssons böcker, Sibelius verk och öar i Skärgårdshavet söder om 60:e breddgraden, med namn som slutar på -skär.

Siri, Bulgarien och Despacito

Wikidata har omfattande användning redan i dag, även bland de allra största spelarna på nätet.

Och på ett osynligt sätt, för licensen för Wikidata är öppen, vilket innebär att man kan använda Wikidata utan att behöva be om lov.

Ett dråpligt exempel är hur Wikidata-folket fått reda på att Wikidata används av Apples assistent Siri.

Frågade man "Siri, vilken är Bulgariens nationalsång?" fick man svaret "Despacito" (örhänget av Luis Fonsi), under den korta tid då motsvarande Wikidata-sats var vandaliserad och ännu inte hunnit rättas till av Wikidata-allmänhetens granskande ögon.

Komplicerade sökningar blir möjliga

Wikidata ger svar på det man inte kan googla. Endel frågor är så svåra att de inte direkt kan besvaras av Wikipedia.

Wikidata info om muminböcker
Böcker i Wiki Bild: Kaj Arnö

Ovanstående tabell innehåller alla i Wikidata lagrade Mumin-böcker, jämte utgivningsår.

Den får du fram med en rimligt enkel programsnutt, som kan köras oavsett om du kan läsa svenska eller ej, och oavsett om du kommer på att Google-översätta en sida där uppgifterna kan råka finnas.

Jag ska inte plåga läsaren med skattedeklarationsbesvär mer än nödvändigt för att kort illustrera saken. Klicka på länken

Böcker av Tove Jansson och du får en skärm som ser ut så här:

Wikidata info om muminböcker
Muminwiki Bild: Kaj Arnö/Screenshot

… där du måste trycka på den vita Play-pilen innan du ser nedre delen.

Wikidatas koder kan du klura ut genom att med kursorn sväva över de kryptiska Q- och P-koderna, där jag i exempelbilden svävat ovanför Q102071 varvid Wikidata Query Service vänligen meddelar mig att Q102071 är just Tove Jansson.

Att Wikidata är på god väg men långt ifrån färdigt ifyllt illustrerar en liknande fråga kring Kompositioner av Sibelius:

wikidata screenshotmed information om kompositörer, text
Bild: Kaj Arnö

Här har jag valt kompositionens namn i första hand på svenska, sedan andra språk i tur och ordning, eftersom ingen ännu fyllt i allt på Wikidata.

Wikidata, screenshot med information och koder
Bild: Kaj Arnö

Landnamstid på Wikidata

Som exemplen illustrerar är det så att Wikidata trampar i barnskorna, och har sin största växtvärk framför sig.

Det är långt ifrån entydigt hur vår värld skall avbildas på Wikidata, och det är nu det avgörs.

Den som är med nu kan påverka framtida generationers världsbild. Det är landnamstider, lite på samma sätt som då vikingarna delade upp det obebodda Island sinsemellan, och som då man på 1990-talet för en spottstyver kunde köpa vilka .com-domäner som helst, innan allihop begripit sig på hur viktigt Internet skulle bli.

Den som först paxar får behålla. Wikidata är lite liknande, och till detta ska jag återkomma.

Kaj Arnö simmar.
Arnö simmar, ibland kring den 60:e breddgraden Bild: Kaj Arnö

Låt mig börja småskaligt, kring Wikidata-sidan för Nagu. Jag tog ju till lite stora ord om Wikidata, och måste först reda ut lite grundbegrepp.

Wikidata-sidan för Nagu

- pekar på alla Wikipedia-artiklar som finns om Nagu (på svenska, nordsamiska och andra språk),

- förklarar i en kort text vad Nagu är, på ett antal språk,

- beskriver ett antal andra egenskaper hos Nagu, vilka i sin tur pekar på andra Wikidata-begrepp

Wikidata-begrepp är inte fluffiga utan väldefinierade och detaljerade.

De identifieras av Q-koder, entydiga nycklar, som fungerar enligt samma princip som personnummer.

Alla på Wikipedia förekommande personer (Albert Edelfelt, Donald Trump, Linus Torvalds) har Q-koder, alla orter (Nagu, München, Galápagos) likaså, liksom ett otal andra begrepp (finlandssvenskar, impressionism, skogsbässar).

Kråtigt eller bekvämt?

Vill man få upp ögonen för alla de svindlande möjligheter som Wikidata ger, tar det tid.

Vore det klart som korvspad, hade det redan vuxit sig stort, och landnamstiden hade varit förbi.

Men nu är det så att pionjärarbetet ligger framför oss. Vi har nosat upp en ny trend medan den ännu är liten – men den kommer att växa sig stor.

Det säger min kristallkula, av rent logiska skäl: Wikidata är en sådan form av metadata som märkbart förenklar livet för allt ifrån forskare till journalister.

Jordglob omgiven av ettor och nollor.
Data Bild: Bruce Rolff

Att jag själv uppfattar Wikidata-skriptspråket SparQL som bekvämt är föga förvånande, uppvuxen som jag är med databaser och SQL.

Inte utan stolthet kan jag för övrigt konstatera att dagens Wikipedia och Wikidata lagrar alla sina data i "finlandssvenska" MariaDB, efter att tidigare som databas använt det "nästan men inte riktigt lika finlandssvenska" MySQL.

För Wikidata öppnar sig inte enkelt. KVG-metoden, kolla vänligen Google, kräver inte mycket, medan man måste vara lite mer databevandrad för att klura fram öar i Finland som slutar på -skär, söder om 60:e breddgraden.

Å andra sidan: före Wikidata var en sådan fråga omöjlig att besvara utgående från öppna data.

Och nu kan vem som helst förbättra data, så att vi ska kunna reda ut "öar i Nagu som trafikeras av förbindelsebåt". Det kan vi inte idag.

tabell på wikidata om Nagu
Bild: Kaj Arnö

Facebook klarar inte konkurrensen

Kontrastera detta till de slutna kommersiella spelare som inte gillar allmänhetens granskande ögon.

Jag har i över ett år förgäves försökt få rättat till Facebook och Instagram, som påstår att min sommarholme Älveskär befinner sig i Korsnäs, inte i Nagu.

Sexhundra kilometer fel.

Inga instruktioner hur man ska göra själv, klumpigt gränssnitt för att be om ändringar officiellt, inga officiella svar, och – än värre – inget napp ens för mina interna kontakter bland nördarna på Facebook i Kalifornien, fyra kilometer från MariaDB-kontoret i Menlo Park, där jag jobbat många gånger.

Sens moralen: Ingen har förmåga att upprätthålla en korrekt världsbild på metadatanivå, inte ens de allra största digitala spelarna.

Men Wikidata är den gemenskap som gör det. Denna gemenskap har granskande ögon, som möjliggör att fel rättas, och som ser till att vandalism blir kortlivad medan avsiktligt vilseledande information får det svårt att överleva.

Maktvakuumet bör fyllas

Överlever gör i stället korrekt information, som kan beläggas med referenser. Men också den korrekta informationen måste matas in av någon, och tolkningsfrågor finns förstås alltid.

Där kommer vi in på analogin med landnamstiden, då det stod var och en fritt att ta för sig.

Det finns ett maktvakuum på Wikidata som kommer att fyllas av enskilda aktörer, på samma vis som enskilda invandrare märkte ut bondgårdar på Island för drygt tusen år sedan, och på samma vis som tidiga Internet-pionjärer hamstrade domäner för drygt tjugo år sedan.

Dessa personer var inte i första hand rika, utan ute på rättan plats i rättan tid.

Mirai infekterade bland annat routrar.
Internet och dess pinaler Bild: Mostphotos / Rainer Zapka

Visst måste de ha tillräckliga finansiella resurser att fara till Island och föda sina familjer, eller att anställa kunniga personer som visste hur man paxade domäner.

Men det rörde sig bara om arbetskostnader, inte kapitalkostnader. Kapitalet fanns där att plocka åt sig, om man blott avlönade de personer som behövdes för att plocka.

Envar sin egen Herodotos

Frågan blir då huruvida man kan dra nytta av det kapital som representeras av makten att definiera metadatat för vår världsbild.

Rik blir man inte, i varje fall inte på så sätt att man skulle bygga upp en säljbar fårfarm eller internetdomän.

Däremot kan man försäkra sig om att ens egen världsbild blir beaktad av resten av världen. Och det är inte fy skam. Segrarna skriver historien, det vet vi.

Men via sättet på vilket Wikidata är uppbyggt – ett slags överstatliga rättsstatsprinciper – blir envar sin egen Herodotos, historieskrivare.

Alma Söderhjelm, Finlands första kvinnliga professor. Början av 1900-talet.
Detta är Alma Söderhjelm, historiker, samlare av information, bland annat Bild: Jan de Meyere-Stockholms Stadsmuseum

Huruvida ukrainska Wikipedia skiljer sig från ryska Wikipedia märker endast ett fåtal personer, som kan språken eller bryr sig om att Google-översätta artiklarna.

På Wikidata kan slavisk historia däremot representeras endast på ett sätt, och det sättet används av allihop.

Wikidata kan minska nackdelarna för de resurssvaga, även om det som kallas "white privilege" – alltså fördelen att födas till en rik kultur – fortsättningsvis gynnar de Herodotos-inkarnationer som representerar resursstarka kulturer.

Skoltsamerna och tamilerna

Exempel: Skoltsamiska talas av drygt trehundra personer, varav de flesta flyttat från Petsamo till Sevettijärvi efter fortsättningskriget. Så pass få modersmålstalare räcker inte till för en egen Wikipedia-språkversion på skoltsamiska.

Men det räcker bra till för att på Wikidata föreviga skoltsamiska renskötselstermer.

Begreppsstrukturen inom renskötseln är i stort sett densamma som på nordsamiska, varvid Wikidata i detta fall mest liknar en skoltsamisk ordbok.

Kontrastera några hundra skoltsamer mot ungefär 70 miljoner tamiltalande.

Tamilerna har givetvis resurser nog för en egen Wikipedia på tamil, även om bildade tamiler ofta anlitar engelska Wikipedia.

Ändå gäller det också för de tamiltalande att hålla sig framme på Wikidata, så att den tamilska världen blir synlig för omvärlden.

Saamen lippu

Klart är att termer för renskötsel behövs lika lite på tamil, som hinduiska gudar på skoltsamiska, och det är okej, för Wikidata är ett levande nätverk av begrepp, som utvidgas enligt behov.

Den gemensamma nämnaren för tamiler och skoltsamer är hotet från extern monokultur.

Indien i stort har en enorm förkärlek för engelska som lingua franca.

"Kan ni inte sluta krångla till det hela med typ tyska och franska och vilka alla språk ni nu nämnt, och bara köra med engelska?" var attityden hos en högljudd indier på ett internationellt möte om tekniskt stöd för mångspråkighet i Wikidata.

Civiliserade européer lynchmobbade inte mannen, men gjorde det fullständigt klart att bildning inte får förutsätta användning av engelska.

En bastion mot anglosaxisk monokultur

Det här rimmar väl med min uppfattning om Wikidata som en bastion mot utarmning av världens kulturer i anglosaxisk riktning.

Även välmenande anglosaxer ställer ibland till det. Britten Peter Frankopan (med kroatiska och svenska rötter) tror sig kanske vara kulturneutral i sin förträffliga bok Sidenvägarna, och förklarar hur bildning finns och alltid funnits också i Kina och Fjärran östern, "inte bara i Oxford och Cambridge".

Än Bologna? Prag? Sorbonne? Gällde det inte att kontrastera Fjärran östern mot Västerlandet som helhet?

Västerlandet är så mycket mer omfattande än bara det anglosaxiska.

Till all guds lycka, får man väl säga, nu då vi har vitsfigurer i ledningen för både Förenade konungadömet och Förenta statterna.

Herreminje, inte skall ju allt behöva skrivas på monokulturspråket engelska, för att få spridning!

Hur brave new bleve inte en sådan world. I den likriktas allihop, och de få galliska byar som sätter sig till motvärn blir satta på undantag.

Sjukdomar sprider sig i monokulturer, därför har naturen skapat biodiversitet!

Orangutang på Borneo
Biodiversitet Bild: Arco Images GmbH / Alamy/All Over Press

I analogi härmed är det svårare att likrikta tänkande på många språk samtidigt.

Jag föredrar att låta tankar förankras lokalt.

Kan vi vår Fänrik Stål, kan tysken sin Faust och bygger vi våra värderingar på enskilda mormödrars visa talesätt – ja då uppstår och sprider sig förödande kulturrevolutioner inte så lätt.

Wikidata och Svenska Yle

Wikidata handlar inte om att en gång för alla avbilda statisk historia, utan är ett levande sätt att avspegla världen, allt eftersom den förändras.

Det syns på så nära håll som Svenska Yle. Wikidata används redan nu av Svenska Yle, och det finns tankar på vidareutveckling av användningen.

Redan nu finns det "taggar" i slutet av varje artikel, så även denna. Dessa metadata är pekare på allmänna begrepp, som i över hälften av fallen är direkt kopplade till Q-koderna på Wikidata.

Tag min Yle-artikel om matematik, Ett försvarstal till matematiken - "det är svårare att försvara en alfahanne".

Den är taggad "MATEMATIK", Q395 och "KAJ ARNÖ", Q6348774. Klickar du på någon av koderna, får du se alla artiklar med samma kod. Klickar du på "KAJ ARNÖ", finns en lista på artiklar där jag antingen omnämns eller själv är författaren.

Och längst uppe till höger finns ett ord "Definition", vars länk går till motsvarande Wikidata-sida.

Speciellt intressant blir det den dag då pekarna går också åt motsatt håll, från Wikidata till Svenska Yles länksida.

Det finns redan pekare från Wikidata till Guardian, BBC och Le Monde. Då Svenska Yle får sin egen ID, hittar varje Wikidata-sökning också indexartiklarna på Svenska Yle, som därigenom får mer uppmärksamhet.

Och Wikidata-sökningen blir mer värdefull, eftersom den som söker enkelt hittar information som av Wikidata bedöms som relevant.

Alla Svenska Yle-artiklar om matematik, typ.

Matematik.
Matematik Bild: Unsplash

Det därpå följande steget kan faktiskt bli ännu intressantare. Då får även själva artikeln en Q-kod.

Därigenom skulle Wikidata direkt kunna besvara frågan "vilka artiklar handlar om matematik och staden Lemberg?", och denna artikel skulle dyka upp.

Det är en väldigt specifik sökning, och man kan utgå ifrån att en journalist i Polen gärna skulle göra sig mödan att översätta denna artikel från svenska till polska.

Samma gäller en av funktionalanalys intresserad matematiker i Frankrike.

Knappast hade en Google-sökning funnit artikeln, dels för att Google-sökningar är vaga, dels för att de ger svar som inte av Wikidata-gemenskapen klassats som relevanta.

Vid tanken på relevans kommer vi tillbaka till landnamstiden och de resursstarkas företräde.

Om Svenska Yle lägger in ett urval av sina artiklar på Wikidata, i synnerhet då det gäller artiklar som citeras på Wikipedia (vilket exempelvis min tidigare Lemberg-artikel Kalla den vad du vill, Lviv, Lwów eller Lemberg – i den ukrainska staden har minoriteter levt sida vid sida i hundratals år gör), kommer ingen av de ansvariga på Wikidata att betvivla artikelns relevans.

Men låter Svenska Yle bli att lägga upp artikeln, är det osannolikt att någon annan gör det åt dem.

Analogi: Märkte du inte ut någon bondgård åt dig för tusen år sedan på Island, var det inte heller så sannolikt att någon annan gjorde det för dig.

Wikidata skapar ordning på Internet

Digital humaniora lever i intressanta tider. Internet är som en slarvigt ordnad hårddisk, utan vettiga katalogstrukturer.

Metadata i form av Wikidatas Q-koder kan skapa ordning och reda.

Via sin öppenhet ger Wikidata frihet, jämlikhet och broderskap i Voltaires anda, och bygger på förnuftet i Kants anda.

Sådant behövs nådens år 2019.