Närvivõrkudega masintõlgid vajavad tugevat treenimist, kuid inimesi veel välja ei vaheta. (Andres Varustin)

Eesti pakub euroliidu eesistumise ajal internetis kõigile huvilistele masintõlke võimalust. Inglise-eesti-inglise tõlketööriista on loonud ettevõte Tilde Eesti OÜ.

Tõlketööriist on kättesaadav aadressil www.translate2017.eu ja mobiiliversioonis nime all Tilde Translator (enam kui 50 000 installimist). Tilde tööriist on meile kõigile kättesaadav ka aadressil masintolge.ee ning Tartu ülikooli konkureeriv toode aadressil masintolge.ut.ee. Masintõlke võimalust pakutakse samuti veebilehekülgede tõlkimiseks. Kõik ikka eesmärgil, et Eesti Euroopa Liidu Nõukogu eesistumise ajal oleks võimalik neil, kes eesti keelest üldse aru ei saa, end kurssi viia siinsete olude ja uudistega.
„Ajakirjanikud näiteks saavad hankida taustateadmisi ning valmistada ette materjale ja küsimusi intervjuu või uudisloo jaoks,“ tutvustab tõlkeprogrammi otstarvet Tilde keeletehnoloog Martin Luts. Ta selgitab küll kohe, et avalikkuse tähelepanu pälvinud masintõlke rakendused, Tilde oma sealhulgas, ei asenda inimtõlkijat niipea, kuid võimaldavad musta töö arvelt hoida kokku palju inimeste aega ja vaeva.

Imemasinat veel pole
„See, et seoses uudse närvivõrkude teooria rakendamisega on valminud mingi imeline tõlkemasin, võib olla ka haip. Küll on uut tehnoloogiat kasutavad programmid tunduvalt paremad kui senised,“ märgib Luts. Ta jahutab liigset optimismi tagasivaatega arvutiaegade algusse: „Vaatasin kunagi vana Ameerika filmi 1950. aastatest, kus oli jutuks, et aasta-paariga arenevad arvutil põhinevad ameeriklaste tõlkesüsteemid nii heaks, et saavad vene keelt oskamata venelaste järele hõlpsalt luurata. Nii see toona ei läinud ning eriti head pole tõlkesüsteemid ka praegu. Viga, et ootused liialt kõrgele kruvitakse, ei maksa korrata.“
Ei maksa loota, et uus, nn kolmandal tõlkeparadigmal, närvivõrkudel põhinev süsteem lahendab kogu tõlkeprobleemi. Ei lahenda. Kindlasti mitte keerukamate keelte, nagu eesti keele jaoks ja mitte nähtavas tulevikus. Ja mitte ilukirjanduse, iseäranis luule tõlkimiseks. „Masinad praegusel tasemel tegelikult ju tõlgitava mõttest aru ei saa, masinas toimub lihtsalt mahukate andmete töötlus, võrdlemine, vastavusse viimine,“ lisab Luts alusmõtte.
Ta rõhutab, et ehkki tõlketäpsus on ka parimate universaalvaldkonna masintõlkide puhul viiendiku ringis, piisab sellest, et näiteks ärialal palju aega ja vaeva kokku hoida. Masintõlke täpsus suureneb tunduvalt, kui kitsendada tõlkevaldkonda, lihtsustada tõlkeülesannet. „Näiteks Tildes me kohandame ühe töösuunana masintõlget IT-valdkonnale. Kui selles valdkonnas teemaderingi samm-sammult veelgi ahendada, treenida tõlkijat ühe kindla firma kindla tarkvaraarenduse kohta käivate tekstide jaoks, on protsent juba 50–60. See on juba piisav, et inimtõlkija roll muutuks järelvaataja omaks, järeltoimetaja omaks,“ märgib Luts.

Kolm masintõlke paradigmat
Keeletehnoloog Martin Luts selgitab, et alguses püüti masinale tõlkimist õpetada nagu inimesele: „Sul on suured kakskeelsed sõnaraamatud, kus on palju infot iga sõna ja selle kasutamise kohta ja siis on tohutu hulk käsitsi kirjutatud reegleid.“ Esimese masintõlke põlvkonnaga väga kaugele ei jõutud, sest elav keel sisaldab hulgaliselt erandeid ja erandite erandeid ja nende erandeid, nendib Luts. Siiski, väga kitsastes ja piiratud keelega valdkondades, nt ilmaennustused ja seadmete hooldusjuhised, meetod töötas.
Järgmisena koguti tohutuid tekstimassiive, kus tõlke oli teinud inimene. See tähendab sadu miljoneid lauseid. Tekstides esinevad vasted koondati piltlikult öeldes ühte suurde, üha kasvavasse tabelisse, kust siis masin valis statistiliselt kõige tõenäolisema vaste.
Tilde on tegelenud tõlkemasinaga sellest faasist peale, meenutab Luts ja lisab, et statistilisele meetodile tuli piir ette.
Kolmas põlvkond: Martin Luts räägib uue põhimõtte kasutuselevõtust: „Mõni aasta tagasi läksime üle kolmandale paradigmale, närvivõrkude kasutamisele. Selle meetodi puhul kasutatakse sedasama rööptekstide massiivi ehk korpust, aga matemaatiline struktuur, mis suudab õppida ja õpitut talletada, pole enam lihtne üksühene tabel, vaid meenutab inimese aju närvivõrgustiku töötamise põhimõtet.“ Selgub, et tõlkijas tekitatakse sõnade jaoks samasugused sidemed nagu on ajus närvirakkude ja sünapsite vahel. Algul on süsteem tühi, õpetamise käigus tekib ühendusi üha juurde. „Ja lõpuks ongi terviklik süsteem: maagiline must kast, mille ühest otsast lükkad ingliskeelse lause sisse ja teisest otsast tuleb eestikeelne välja. Siiski, see pole veel imemasin, nagu kohati on paista lastud,“ rõhutab Luts. „Samas võib kindel olla, et ka kolmas paradigma ei jää viimaseks, areng jätkub,“ ütleb masina treener.

Eesti keele probleem
Nagu eespool öeldud, on üleilmse tõlkeprobleemi sees hulk väiksemaid, mis seotud konkreetsete keeltega. Meie probleem on selles, et eesti keel on keerulisem kui paljud muud keeled. „Eesti keele puhul peab valima 14 käände vahel. „Inglise keelest eesti keelde tõlkimisel põhjustavad kõige suurema veatüübi sõnalõpud – käänded-pöörded. Masin paneb siin tihti ja kõvasti mööda,“ märgib Luts.

Vaade tulevikku
Neurovõrkudel põhinevat masintõlget arendatakse üleilmselt. Tildel on Eestis viis inimest, kes tegelevad eesti keeletehnoloogiaga, lisaks tõlkijad ja toimetajad, kes aitavad masinat kasvatada, Lätis ja Leedus on inimesed, kes tegelevad nende keeltega. „Me hakkasime uue meetodiga tegelema kohe, kui aasta tagasi masintõlkemootorite olümpial närvivõrgud võitsid. Me tulime selle lahendusega välja enne Google'it, enam kui aasta tagasi,“ meenutab Luts.
Ta lisab: „Pendel on liikunud üle keskpaiga: alguses oli ainult inimtõlge, siis aitas masin tõlkida, nüüd on inimese roll juba masina omast väiksem.“
Aga inimese kõrvalejäämist ta lähitulevikus väga ei usu. „Seni, kuni masin ei tunne oma tõlke pärast häbi, pole ka masintõlge piisavalt hea,“ ütleb Luts ning selgitab, et sellise taseme võiks saavutada alles eneseteadvusega masin.

0 kommentaari

Kontakt

Telefon +372 614 4181
linnaleht@linnaleht.ee

Linnaleht sotsiaalmeedias