Konsten att analysera textdata – Sentiment analys!

Åsikter, känslor och bedömningar. Idag är det helt okontroversiellt att dela med sig i kommentarsfält, på bloggar och i sociala medier. Dela med sig av information som är ovärderlig för företag som vänder sig mot en allt mer snabbrörlig och illojal konsumentmarknad. Vad tycker våra kunder just nu? Varför tycker dom så? Är deras köpbeteende på väg att förändras?

Analys av textdata


Men då blir det väl enkelt, det är ju bara att läsa den text kunderna så generöst delat med sig av. Ja, det är klart, men problemet är att det är så mycket text. Big Data! Hur ska vi kunna dra några trovärdiga slutsatser ur så mycket data?

Svaret är sentiment analys.

Sentiment analys är konsten att på ett automatiserat sätt, ur en text, extrahera essensen i form av de viktigaste åsikterna, känslorna och bedömningarna som förmedlas.

Ofta räcker en så kallad dikotomuppdelning av sentiment, det vill säga att man betraktar ord som antingen positiva eller negativa. Man kan exempelvis vara intresserad av att veta om en produkt väcker ett positivt eller negativt sentiment. Positiva känslor kan vara lycka, tillit, förväntan eller förvåning medan negativa sentiment ofta associeras med vrede, fruktan, sorg och avsky.

Läs också: För mycket fokus på teknik – digitalisering kräver bredare tänk

Språk är tvetydiga


Låter ju inte så svårt men språk är aldrig enkelt. Som ni vet kan ett ord ha olika betydelser på grund av den kontext det används i, som exempelvis verbet ”pynta” som har minst två betydelser beroende på sammanhanget; ”jag pyntar julgranen” eller ”Jag pyntar för din lunch idag!”. Men då är ändå svenskan ett relativt enkelt språk i det avseendet. Engelskan är mer komplicerat, med ord som “like”, ”book” eller ”out” som har 2, 3 respektive 5 olika betydelser. Men det är ändå inget mot kinesiskan som är labyrint av tvetydigheter och dolda meningar.

Betrakta till exempel dessa tre meningar:

很难说 (Hěn nán shuō) (Direkt översättning: Svårt att säga. Faktisk betydelse: Jag vet inte ELLER Jag vet, men vill inte säga.)

马上到了 (Mǎ shàng dào le) (Direkt översättning: Jag kommer snart. Faktisk betydelse: Jag kommer i den närmaste framtiden…Kanske)

应该没问题 (Yīng gāi méi wèn tí) (Direkt översättning: Borde inte vara några problem. Faktisk betydelse: Allt är under kontroll ELLER Du ligger risigt till).

Detta är en av de stora utmaningarna med sentiment analysen. De enskilda ordens betydelse kan helt förändras när de blir del av en mening eller sammanhang. Och då har vi inte ens börjat tala om mänskliga språkliga egenheter såsom sarkasm och ironi.

Ett praktiskt exempel


Vill du lära dig mer om tekniken bakom och hur man enkelt kan komma igång med sentiment analys kan du läsa ett längre mer tekniskt blogginlägg här. I Inlägget redogörs för hur jag gjorde en sentiment analys av en av de stora romantiska klassikerna, Madame Bovary av Gustave Flaubert. En tragedi… eller?

 

Inläggsförfattare är Serge de Gosson de Varennes på Sopra Steria.

 

Serge de Gosson de Varennes

Serge de Gosson de Varennes arbetar som Senior analytiker på Sopra Steria.

Sopra Steria is an European leader in digital transformation. Combining high quality and performance services, added value and innovation, Sopra Steria enables its clients to make the best use of digital technology.

Kommentera