Datorkortade texter gör webben överskådlig

Computer Sweden
Läs hela tidningen - prenumerera

Datorkortade texter gör webben mer överskådlig

(2000-09-11 01:00)
Snart kan vi be sökmaskinerna att sammanfatta webbsidorna åt oss. En teknologie doktor har utvecklat en lösning för svenska förhållanden.

Svenska är inte som engelska.
De flesta sökmaskiner skrivs av amerikaner för amerikaner. Och för engelsktalande uppkommer sällan problemet att man inte hittar ordet "verkstäder" om man matar in sökordet "verkstad". Engelska är enklare än de flesta andra språk.

Vill vi kunna söka information på vårt eget språk på webben och i andra datoriserade textsamlingar måste vi alltså konstruera de språkliga verktygen själva.

Den slutsatsen har forskaren Hercules Dalianis på Kungliga tekniska högskolan dragit.

Första svenska lösningen
Han samarbetar med den svenska sökmaskinen och portalen Euroseek om att ta fram verktyg för att göra webben mer överskådlig.

Euroseek har en mångspråkig profil. Användarna kan få Euroseeks webbsida presenterad på valfritt europeiskt språk ñ det finns 40 att välja mellan ñ och också begränsa sökningarna till ett av de språken. Ännu fler språk kommer när Euroseek drar igång sin Asiensatsning.

Hercules Dalianis har gjort det första programmet, Swesum, som gör automatiska sammanfattningar av svensk text.

Hans program kan bli ett av hjälpmedlen för att göra webben överskådlig och flerspråkig.
Det är nämligen enklare att först sammanfatta texten på en webbsida och att sedan använda ett automatiskt översättningsprogram för att översätta sammanfattningen än att göra tvärtom.

Automatiska översättningar är ju sällan perfekta, och då lämpar de sig dåligt som underlag för sammanfattningar.

Samverkande metoder
Konsten att göra automatiska sammanfattningar började utvecklas på 1960-talet, berättar Hercules Dalianis.

Då började man lagra vetenskapliga artiklar i datasystem, men lagringsutrymme var dyrt, och man nöjde sig därför med att lagra sammanfattningar. Ofta hade artikelförfattaren själv skrivit en, men om en sådan saknades lät man ett datorprogram göra sammandraget.

Nuförtiden, fortsätter han, är problemet det motsatta. Det finns så mycket text på internet att det behövs automatiska sammanfattningar för att man ska kunna överblicka materialet.

Finns det många metoder att göra automatiska sammanfattningar, eller handlar det om variationer på samma metod?
ñ Det finns huvudsakligen två metoder för textsammanfattningar, berättar Hercules Dalianis, en som fungerar och en som inte fungerar. Den som fungerar har flera varianter, men de liknar varandra.

De tekniker som utvecklades på 1960-talet har vidareutvecklats och finslipats, men inte ändrats i grunden. Och programmet arbetar inte alls som en människa skulle göra. Det förstår inte vad det läser, det vet inget om ämnet eller sammanhanget.

Utan det är en kombination av statistiska och språkvetenskapliga metoder tillsammans med tumregler som har visat sig fungera.

Grunduppgiften är att hitta nyckelorden i texten. Med ledning av dem kan man avgöra vilka meningar som är viktiga och mindre viktiga.

Programmet letar igenom texten efter nyckelord enligt följande kriterier:

Var i texten finns meningen? De första meningarna i texten brukar vara viktigast, särskilt i nyhetsartiklar och rapporter.
Vilka ord ingår i rubriken?
Vilka ord är markerade? Det kan vara ord skrivna i halvfet eller kursiv stil, ord inom citattecken och ord som skrivs med stor bokstav ñ det är oftast namn.
Siffror brukar vara viktiga.
Vilka ord förekommer i andra meningar?

Genom att sålla fram textens nyckelord kan programmet sedan rangordna meningarna. Ju fler viktiga ord det finns i en mening, ju viktigare kan man anta att meningen är.

De viktigaste meningarna behåller programmet, de minst viktiga stryks.

Ordlista nödvändig hjälp
Man kan tro att detta system gör sammanfattningarna osammanhängande och ologiska, men Swesum kan korta ned texter mellan 20 eller 40 procent av den ursprungliga längden utan att det blir nonsens.

Det förutsätter att det är sammanhängande, berättande texter. Uppräkningar och bruksanvisningar klarar inte sådana kortningar.

Tekniken fungerar bäst på nyhetstexter, och det är sådana som samarbetet med Euroseek främst är inriktat på.

Ett problem med nyckelord är förstås att de vanligaste orden i svenskan är "och", "i", "men" och andra nödvändiga men innehållslösa ord. Man måste kunna sortera bort sådana ord. Nyckelord är i regel substantiv, adjektiv och adverb.

Ett annat problem är ordens böjningsformer.
Det är inget som engelsktalande bekymrar sig om, eftersom pluraländelsen av engelska substantiv alltid är ett enkelt s, utom i ett fåtal fall (mouseñmice) som man kan lära sig utantill.
Men Swesum måste veta att "verkstäder" är samma ord som "verkstad". Annars blir ordfrekvenserna missvisande.

För att hantera dessa problem innehåller Swesum ett lexikon på 700 000 ord. Med stöd av det lexikonet kan programmet utesluta prepositioner och konjunktioner, alltså ord som "i", "på" och "men". Det kan också se att "datorernas" är en böjningsform av "dator".

Men hur sammanställer man en ordlista på 700 000 ord?
ñ Inte för hand, det skulle aldrig gå, berättar Hercules Dalianis. Utan det sker genom att man söker igenom stora textmassor.

Taggare genomsöker corpus
Stora textmassor ñ miljontals ord ñ som används som underlag för språkvetenskaplig forskning brukar kallas för corpus, och man talar ibland om corpuslingvistik. Den typen av forskning har visat sig vara fruktbar. Det mest effektiva sättet att skapa datorprogram för taligenkänning och automatisk översättning tycks vara att använda statistiska metoder för att analysera textmassor.

Att lära datorer att göra grammatisk analys, som att först ta ut subjekt och predikat i meningarna och sedan på något sätt förstå vad texten handlar om, verkar vara svårare. Alla kommersiella program för automatisk översättning och taligenkänning bygger på statistisk analys.

Helt utan språkvetenskap går det dock inte.
Genomsökningen av de stora textmängderna görs av en så kallad taggare, ett program som känner igen ordklasser och böjningsformer.

ñ Vi kallar den för en lättparser, berättar Hercules. Mer kraftfulla parsrar klarar av att göra en grammatisk analys av meningen, men då går det förstås långsammare.

Ett typiskt problem är att avgöra om "men" är en konjunktion eller betecknar en skada. Precis som människor kan en parser bara avgöra detta genom att titta på sammanhanget.

Vem är "hon"?
Och så är det frågan om sammanhanget.
I normala välskrivna texter knyter varje mening på något sätt an till den föregående. Byter man ämne markerar man det genom att göra nytt stycke eller med en rubrik.

Risken med automatisk textsammanfattning är förstås att sammanhanget går förlorat. Eller, än värre, att programmet skapar nya sammanhang genom att knyta ihop två meningar. Tyvärr är det inte så lätt för ett datorprogram att avgöra om två meningar hör ihop eller handlar om helt olika saker.

Vi gör nämligen flitigt bruk av pronomen som "han", "hon" och "den", och om texten är välskriven förstås läsaren vad som menas.

Normalt syftar ett personligt pronomen till den person som senast nämndes i texten. Men "hon" syftar naturligtvis inte på Bertil. Det syftar på den kvinna som senast nämndes i texten.

Sådant ser vi människor som en självklarhet, men förklara det för en dator, den som kan.
Men det är en nödvändighet för ett program som ska avgöra vilka meningar som hör ihop.
Pronomenresolution är den språkvetenskapliga termen för detta. Alltså att fastställa vad ord som "han", "hon", "detta" och "det" syftar på.

Här har doktoranden Martin Hassel bidragit med ett program. Det använder två metoder. Dels lägger programmet upp listor på personer och ting som nämns.

För varje "han", "hon", "den" eller "det" söker programmet igenom listan och försöker hitta vad pronomenet står för. Dels använder programmet semantisk information för att avgöra vad texten och enskilda meningar handlar om.

Genom att kombinera båda metoderna kan programmet i de flesta fall hitta den rätta motsvarigheten till ett pronomen.

Programmet kan sedan helt enkelt byta ut alla pronomen mot namn eller substantiv.
Gör man pronomenresolution innan man låter Swesum korta texten har man alltså bättre förutsättningar att få en logiskt sammanhängande sammanfattning. Men hur fungerar detta?

Studenter vid KTH har fått bedöma texter som kortats till 30 procent av den ursprungliga längden. Det var nyhetstexter på två eller tre sidor.

Enligt försökspersonerna var 80 procent av sammanfattningarna godtagbara.

Automatisk textsammanfattning med Swesum

Pröva själv automatisk textsammanfattning med Swesum på: http://www.nada.kth.se/~xmartin/swesum/index.html

Texten som ska sammanfattas måste finnas på webben.

Swesum är det första programmet i sitt slag som är skrivet specifikt för svenska. Det har utvecklats under ledning av Hercules Dalianis på Kungliga tekniska högskolan.

Swesum arbetar med en kombination av språkvetenskapliga metoder, statistiska metoder och beprövade tumregler. Bland annat med stöd av en ordlista på 700 000 ord avgör programmet först vilka ord som är viktigast i texten. Därefter rangordnas meningarna med ledning av hur ofta nyckelorden förekommer.

Texten kortas genom att programmet behåller meningar med många nyckelord och stryker meningar med få nyckelord. Man kan korta texter till bara tio procent av den ursprungliga längden, men det blir oftast nonsens. Däremot kan man ofta korta dem till 30 procent och ändå få en begriplig text.

Ett hjälpmedel är pronomenresolution. Det innebär att man fastställer vilka namn eller ord som personliga pronomen som "han" och "hon" syftar på. Programmet behöver då inte längre räkna alla "hon" som samma ord, utan som olika ord beroende på vem "hon" är. Ett program för pronomenresolution har utvecklats av Martin Hassel på KTH.

Hercules Dalianis samarbetar med sökmaskinen Euroseek om att införa automatisk textsammanfattning på webben. Han utvecklar även teknik som gör det möjligt att känna igen ordens böjningsformer.

Även riksdagen har visat intresse
för denna typ av teknik för att kunna erbjuda sammanfattningar av betänkanden, motioner och debatter.

Anders Lotsson
Läs mer av samma skribent