2019 m. gruodžio 27 d., penktadienis

Modernioji lingvistika VDU - atsargiai SPOILERIAI - Kalbos technologijos

Taip, tai dalykas, kurio pavadinimas gąsdina visus humanitarus. "Daaar viena kompiuterastika", galima išgirsti stenint studentus, kurie ne retai pasirenka studijuoti kalbas, norėdami išvengti tiksliųjų mokslų. Cha cha.
Dabar bus ilga ilga įžanga.
Naivu ir net kvaila ignoruoti technologijų skverbimąsi į humanitarinius mokslus, tad mums lieka pasirinkti vieną iš dviejų kelių: 1) slėptis under the rock ir tuo pačiu tapti nekonkurencingi darbo rinkoje. Kitas gi, būti proaktyviems ir patiems bandyti pažaboti kompiuterines technologijas. Liūdniausia, kad tikrai dažnai išgirstu iš bendraamžių ar jaunesnių kolegų tokius pareiškimus kaip "o manęs VU to nemokė". Neveidmainiausiu, VU ir manęs nemokė naudotis CAT įrankiais, o įvairūs "kompiuterastiniai" dalykai buvo dėstomi atsainiai - filolochai gi, ką iš jų paimsi. Bet esmė kame, vertėjas pats ant savęs kryžių deda, jei mano, kad viskas, ko jam reikia darbui, užtenka pabaigti universitetą. Dar kartą priminsiu - vertėjas mokosi viiiisą gyvenimą. VIIIISĄ. ABSOLIUČIAI. BE IŠIMČIŲ. Ir joks vertėjas negali versti (pun inteded) savo nekompetencijos ar negebėjimo naudotis vienu ar kitu įrankiu universitetui ar dar kokiai įstaigai. Šiandien, tai daryti būtų netgi gėda. Yra krūvos online kursų, mokymų, knygų, straipsnių, tiek mokamų, tiek nemokamų, kaip ir įrankių, reikia tik pasidomėti.
Taigi.. Kalbos technologijos. Dalyką dėstė net trys specialistai. Iš esmės šio kurso tikslas buvo supažindinti mus, lingvistus, su kalbos technologijų kūrimo principais, reikšme ir galimybėmis. Kadangi VDU turi kompiuterinės lingvistikos centrą, jame ir vyksta visa ta technologinė alchemija, kur kuriami tekstynai, visokie teksto apdorojimo įrankiai bei šnekos atpažintuvai. Suprantama, mūsų tokių dalykų kurti nemokė, tačiau supažindino su "viduriais", kas kuriant įrankius yra svarbu, kokios kliūtis ir t.t. Kodėl mums reikia tokių žinių? Vienas momentas, galbūt užgims noras mokytis kurti tokius įrankius, tad atitinkamai supranti, jog reikės mokytis programuoti. Kitas momentas, norint efektyviai dirbti su tais įrankiais, reikia suprasti jų veikimo principą.
Paspaudę šią nuorodą galite pamatyti, apie kokius įrankius ėjo kalba. O bendrai didesnis dėmesys buvo skirtas reguliariesiems reiškiniams (taip sakant, išnaudoti galimybes tų įrankių, kuriuos ir taip naudojam, bet nežinom, kad galima juos išnaudoti žymiai efektyviau), šnekos atpažintuvo kūrimui (buvo vau kaip įdomu) ir tekstų anotavimui. Čia jau reikia ne tokio humanitarinio, bet ne mažiau kūrybiško mąstymo. Nors, jei būtų mano valia, logikos pagrindus krimstų visi, nes logika yra svarbi absoliučiai visose srityje, ne tik tiksliuosiuose moksluose.
Šis dalykas padėjo suprasti ir kitą momentą - kaip svarbu draugauti su technologijimos. Vis dažniau pagalvoju, kad reikia mokytis programuoti, nes tokiu būdu galėčiau susiprogramuoti nemandrius, bet patogius įrankius, kuriuos galėčiau panaudoti tyrimų medžiagos apdorojimui, aš juk tinginė. Per paskaitas mums pasakojo apie pitoną.. na, gal ir mėginsiu prisijaukinti šį žaltį.. Kaip tik mums rekomendavo knygą "Natural Language Processing With Python", kuri netikėtai turi nemokamą online prieigą prie pdf failo. O paprogramuoti galima paspaudus šią nuorodą.
Labiausiai man patiko mokymai apie teksto atpažinimo technologijas (OCR), apie kurias jau anksčiau pasakojau. Taip pat smagus buvo namų darbas. Reikėjo pasikalbėti su google docsais. Jei kas nežinojot, Google docs turi lietuvių kalbos atpažintuvą. Jo kokybė santykinai aukšta, priklausomai nuo to, kokios kokybės mums reikia, tačiau kalba eina tik apie kalbos atpažinimą žodžio lygmenyje. Kol kas jis nėra toks mandras, kad atskirtų sakinius, dėtų skyrybos ženklus ir t.t. Jis net tikrinius vardus ne visada atpažįsta, bet potencialas jo nerealus. Aš lyginau Google docs atpažintuvą lietuvių ir rusų kalbomis. Stebėtina tai, kad rezultatai buvo praktiškai identiški net tuo atveju, kai rusiškame tekste buvo pilna lietuviškų žodžių. Bet jei praignoruotume lietuviškus žodžius, rusų kalbos atpažintuvas efektyvesnis. Jei įdomu, galite pasižiūrėti į šį mano margutį :D Tyrimui buvo paimtas tekstas iš delfio tiek lietuvių, tiek rusų kalbomis. Atvirai pasakysiu, rusiškas vertimas yra toooks apverktinas.. :D

Komentarų nėra:

Rašyti komentarą