Till startsida

Framtidssäkring av Språkbanken

(finansierat av VR 2008-2010)
Projektledare: Lars Borin

Språkbanken vid Göteborgs universitet är ett dataarkiv med språkliga resurser avsedda för språkvetenskaplig och språkteknologisk forskning och utbildning, i form av stora mängder text (över 200 miljoner ord) och elektroniska lexikon som är fritt tillgängliga för sökning på internet. Resurserna avspeglar de flesta perioderna i det svenska skriftspråkets historia och dessutom finns svenska inlärarspråkskorpusar, enstaka resurser på andra språk än svenska, samt s.k. parallella korpusar, alltså samma texter på svenska och något annat språk, som används för översättningsforskning och kontrastiv lingvistisk forskning.

Språkbankens grundverksamhet finansieras av Göteborgs universitets humanistiska fakultet. Nya resurser samlas kontinuerligt in som en del av grundverksamheten, och målet är att hela det svenska skriftspråket genom historien ska vara representerat i Språkbanken. P.g.a. sitt renommé som en stabil organisation med hög kompetens har Språkbanken även anförtrotts externa material för tillgängliggörande, t.ex. Stockholm-Umeå-korpusen, liksom materialinsamling och -tillgängliggörande på uppdrag, t.ex. den färöiska textkorpusen och Litteraturbanken.

Språkbanken har sen den inrättades 1975 blivit en allt viktigare nationell resurs för forskning i svenska och nordiska språk samt i språkteknologi. Den används vid alla universitetsinstitutioner i Sverige och Finland där forskning i svenska bedrivs. Den används också i undervisning i svenska och för populärvetenskapliga ändamål, t.ex. hänvisar svar på språkfrågor i media ofta till material i Språkbanken. Eftersom den är fritt tillgänglig använder även allmänheten den i stor omfattning.

Språkbanken behöver dock framtidssäkras - moderniseras i flera avseenden - så att vi kan vidmakthålla dess goda rykte och dess användbarhet för språkforskare och språkteknologer. Språkbanken har växt fram organiskt under fyra decennier, och det har lett till att de språkliga resurserna har olika format och därmed använder olika sök- och bearbetningsverktyg. Textresurserna är också försedda med olika mycket tilläggsinformation (information om själva texterna, om texternas struktur samt om de språkliga enheter - ord, fraser, meningar, etc. - som texterna består av), och i de flesta fall med betydligt mindre sån information än vad som idag är tekniskt möjligt att tillföra automatiskt, eftersom de dataprogram vi har tillgång till för detta inte är standardiserade m.a.p. de textformat och infomationsformat de arbetar med. Sådan information är t.ex. ordklass och uppslagsform för textord och satsdelsfunktion för fraser i meningar, som ökar texternas "språkliga förädlingsgrad" markant och möjliggör helt nya forskningsfrågor eller underlättar forskarnas användning av texterna.

Vi har alltså många textformat, lexikonformat och dataprogramformat i Språkbanken. Detta leder till att underhållet av Språkbanken blir mer resurskrävande än det skulle behöva vara. För användarna innebär det bl.a. att de endast med svårighet kan jämföra olika textmaterial med varandra. Den låga språkliga förädlingsgraden betyder att många grammatiska fenomen inte kan undersökas annat än i ytterst begränsad omfattning. Språkbanken behöver vårdas och underhållas såtillvida att alla resurser bör lagras i standardiserade format, förses med standardiserad och jämförbar information som ökar deras språkliga förädlingsgrad, samt vara tillgängliga för forskare dels för inspektion/ sökning via flexibla gränssnitt, dels också för nerladdning i de fall där detta är möjligt utan brott mot lagen om upphovsrätt.

Vi planerar i detta projekt att rusta upp Språkbanken i 6 avseenden: (1) standardisering av lagringsformat (2) och format för tilläggsinformation; (3) automatiskt tillägg av språklig information (annotationer) till de moderna svenska textmaterialen; (4) tillägg av textinformation (metadata) till alla textmaterialen; (5) utveckling/ anpassning av standardiserade programvaror för hantering och annotation av texter; (6) utveckling/ anpassning av användargränssnitt för inspektion/ sökning/ presentation/ bearbetning av textmaterialen.

Kontaktinformation

Lars Borin

Inst. för svenska språket Box 200, 405 30 Göteborg

Besöksadress:
Lennart Torstenssonsgatan 8, Rum L408

Telefon:
+46 (0)31 786 45 44

Till sidans topp

© Göteborgs universitet, Box 100 , 405 30 Göteborg
Tel. 031-786 0000, Kontakta oss

Om webbplatsen | Karta