Kopš 90. gadu sākuma, kad IBM radīja pirmo statistiskās mašīntulkošanas (SMT) sistēmu Candide, statistisko metožu lietojums automatizētās tulkošanas sistēmās kļuvis par dominējošo pētījumu virzienu pasaulē. SMT pamatideja ir tulkojuma ģenerēšanai izmantot iepriekš radītus tekstus, t.i., tulkošanas sistēma „iemācās” tulkot no iepriekš tulkotiem tekstiem jeb paralēlo tekstu korpusiem.
Latvijā statistiskās mašīntulkošanas pētījumi uzsākti 2005. gadā LZP projekta „Statistisko metožu izvērtējums angļu-latviešu tulkošanas sistēmā” (2005-2008) ietvaros. Projekta mērķis bija izvērtēt statistisko tulkošanas metožu piemērotību tulkošanai latviešu valodā un izstrādāt angļu-latviešu statistiskās mašīntulkošanas sistēmas prototipu.
Pirmās SMT sistēmas (arī LU MII radītā) kā vienīgo zināšanu avotu izmantoja paralēlos tekstu korpusus. Tomēr, kaut arī tekstu korpusu izmēri arvien pieaug, pēdējo gadu pētījumi parāda, ka SMT sistēmu tulkojuma kvalitāte bieži vien ir nepietiekama. Tulkojot valodās ar sarežģītu morfoloģiju un brīvu vārdu kārtu (arī latviešu valodā), SMT sistēmu ģenerētajos tulkojumos izvēlētie vārdi lielākoties ir pareizi, bet to sakārtojums teikumā un izvēlētās locījuma formas lasītājam bieži vien neļauj uztvert teikumā pateikto vai pat atsevišķos gadījumos maldina par tā jēgu.
Lai uzlabotu SMT sistēmas tulkošanas kvalitāti, SMT modeļi tiek papildināti ar lingvistiskajām zināšanām, veidojot tā saucamos faktorētos modeļus, ar kuru palīdzību dators „iemācās” zināšanu kopas (faktorus) par valodu, un ko pēc tam izmanto tulkošanas procesā. LZP projekta „Faktorēto metožu lietojums angļu-latviešu statistiskajā mašīntulkošanas sistēmā” (2009-2012) mērķis ir izvērtēt dažādu faktoru (morfoloģisko īpašību, sintaktisko īpašību, vispārīgās leksikas vārdnīcu un terminoloģisko vārdnīcu) ietekmi uz automatizētas tulkošanas sistēmas kvalitāti un implementēt to pašreizējā statistiskās mašīntulkošanas (SMT) sistēmas prototipā, lai uzlabotu tulkojumu kvalitāti.
Tā kā pētījumi turpinās, šajā lapā publicēts jaunākais tulkošanas sistēmas prototips, kas tiek regulāri atjaunots. Angļu-latviešu statistiskās mašīntulkošanas sistēmas prototipa „apmācīšanai” izmantots JRC-Acquis 3.0 tekstu korpuss, tulkošanai tiek izmantots Moses dekoderis.
Angļu-latviešu tulkošanas sistēmas demonstrācija:
Latvijas Universitātes
Matemātikas un informātikas institūta
Mākslīgā intelekta laboratorija