Что из себя представляет новый переводчик «TATSOFT»?

11.11.2019

Рус-инглиз, инглиз-рус теленнән сүз, җөмләне тәрҗемә итү өчен бер проблема юк. Интернет челтәрендә йөзләгән тәрҗемәче бар. Тик моңа кадәр русча-татарча, татарча-русча тәрҗемә программалары белән әллә ни мактанып булмый иде. Тик хәзер бу юнәлештә боз кузгала башлады сыман: “Яндекс” машина тәрҗемәчесенә хәзер “TatSoft” рус-татар-рус машина тәрҗемәсе дә кушылды.

Бүген “Сәләт” йортында әлеге тәрҗемәчене тәкъдим иттеләр. Бу программа Татарстан Фәннәр академиясенең гамәли семиотика институты һәм Иннополис Университеты тарафыннан гамәлгә ашырылган. 

Нәрсә ул “TatSoft”?

“TatSoft” (https://translate.tatar/ ) – русча-татарча һәм татарча-русча машина тәрҗемәчесе. Еш кына аны сүзлек яки сөйләүлекләр белән бутаучылар күп. Тик машина тәрҗемәчесе – бер телдән икенче телгән компьютер программасы ярдәмендә тәрҗемә итү. Бу сүзләр сүзлекләрдә язылган, программа аларны эзли һәм кулланучыга күрсәтә.

Бүген әлеге тәрҗемәче үзенең әһәмиятлелеген ассызыклый. Хәзерге вакытта дөньяда 5 009 510 татар телендә сөйләшүче кеше бар. Моннан тыш, үзләре татар милләтеннән булмаган, ләкин татар телен өйрәнергә теләүчеләр дә шактый. Аларның барысы өчен дә машина тәрҗемәчесе телне өйрәнү өчен яхшы мөмкинлек булачак. Татарстанда дәүләт телләре турында закон бар, шуңа да кайбер оешмалар ике телле документация алып барырга тиеш. Бу өлкәдә тәрҗемәче кадрларга кытлык булуы сер түгел. Тик бу программа ярдәмендә тәрҗемәчеләрне система белән алыштырырга җыенмыйлар, ә бары тик тизрәк һәм сыйфатлырак итеп эшләргә мөмкинлек бирәчәкләр.

Машина тәрҗемәчесен эшләүне кайчан башлаганнар?

2014 ел – Гамәли семиотика  ABBYY һәм Яндекс ширкәтләре белән  хезмәттәшлек итә (татар телендәге компьютер модельләре ярдәмендә әлеге ширкәтләргә машина тәрҗемәчесен төзергә булыша)

2018 ел, февраль – русча-татарча тәрҗемә өчен дөньяда беренче нейрочелтәрле “TatSoft” тәрҗемәчесе булдырыла

2019 ел, июнь – «Сәләт»нең исәпләү үзәге оеша (Яңа ысуллар, технологияләр, тупланган мәгълүматлар кулланылган, сервер ярдәмендә эшләнелгән була. Элек программа версиясе үзен-үзе 42 көн дәвамында өйрәткән, ике тел өчен 84 көн таләп ителгән. Хәзер бу вакыт бик күпкә кыскарган)

2019, июль – тәрҗемәчене ачык рәвештә сынау башлана.

Тәрҗемәчеләрне әзерләүдә өч ысул бар:

1. Rule- based – кагыйдәләргә нигезләнгән машина тәрҗемәчесе

2. Phrase-based, ягъни статистик ысул – ул фразаларга нигезләнгән, бу ысул белән “Яндекс”, “Google” эшләгән

3. Нейрочелтәрле – махсус программа кеше биргән мәгълүматны укый (рәсем, текст, тавыш). Система, төгәл мисаллар ярдәмендә өйрәтелгәч, ул алгоритмны истә калдыра. Шулай итеп, тәрҗемәчене булдыручылар системаны, кеше миенә охшатып, ясалма нейрочелтәр ясарга тели. Аны кеше өйрәнгән шикелле итеп ясыйсылары килә. Бу –  шушы укыту процессын автоматизацияләү омтылышы. “TatSoft”  программасы да – нәкъ шундый нейрочелтәрле тәрҗемәче.

Әлбәттә, татарча-русча, русча-татарча сүзлекләр шактый. Тик алар, гадәттә, аерым сүзләрне генә тәрҗемә итә. Грамматика, семантик мәгънәләрен бөтенләй исәпкә алмый. Әлегә русча-татарча, татарча-русча машина тәрҗемәсе икәү генә: “Яндекс” һәм “TatSoft”.

Лайклы һәм дизлайклы тәрҗемәче

Бу тәрҗемәчене кулланучылар да бәяли ала. Әгәр кеше тәрҗемәнең төгәл булуын күрсә, ул “лайк” билгесенә баса. Шулай итеп, система алга таба, үзеннән-үзе аңлап, камилләшәчәк. Әгәр тәрҗемә төгәл булмаса, бу очракта “дизлайк” куярга кирәк. Әгәр күп кеше бер үк фраза/сүзнең хаталы тәрҗемәсен билгеләп барса, киләчәктә тәрҗемә төгәл булачак. Моннан тыш, тәрҗемәнең ничек яңгыраганын тыңларга да мөмкин. Әлеге эштә иң катлаулысы мәгълүмат, алгоритм (программа, система), исәпләү көчләре белән бәйле булган.

Шушы рус-татар, татар-рус машина тәрҗемәчесе өчен “Нефтегаз” ширкәте ярдәме белән махсус күп күләмдәге мәгълүматны саклый торган 18 миллион сумлык сервер алынган.

– Хәзерге вакытта “Яндекс”, “Google”  тәрҗемәчеләре яхшыра. Без дә яңа технологияләрне кулланып, үз эшебезгә яңалык кертергә тырышабыз. Безнең машина тәрҗемәсеннән тыш, тәрҗемә ителгән сүзләрне тавышландыру, текстны укыганда, компьютер үзе язу, аннары тәрҗемә итә торган функцияләре дә бар. Ләкин хәзерге вакытта бу сайт мондый функцияләрне чыдата алмый. Тик киләчәктә моның булачагына ышанабыз. Шулай ук без яшьләр өчен “TatSoft”ның мобиль кушымтасын эшлибез. Аны 1-1,5 елдан Android һәм iOS платформалары өчен чыгарырга җыенабыз, – ди Татарстан Фәннәр академиясенең Гамәли семиотика институтының өлкән фәнни хезмәткәре Айдар Хөсәенов.

Бүген “TatSoft” базасының рус һәм татар телләренең һәрберсендә 15 миллион сүз формалары кертелгән. Димәк, аларның һәркайсында 1 милион пар җөмлә бар дигән сүз. Төп максат – шушы машина тәрҗемәчесендә 10 миллион пар җөмлә туплау. Ләкин аның проблемасы финанслауга төртелеп кала икән. Чөнки бер битне тәрҗемә итү дә шактый кыйммәткә төшә. Гамәли семиотика институты белгечләре бу процессны булдыра алган кадәр автоматлаштырса да, барысы да финансларга бәйле. Шуңа да әлеге программаны күбрәк кеше кулланып, аңа “лайк”, “дизлайк”лар куйса, бу программаның үсешенә яхшы тәэсир ясаячак.

Студентлар ничек ярдәм итә ала?

КФУның Филология һәм мәдәниятара багланышлар институты студентлары да бу эштә актив катнаша. Әгәр Гамәли семиотика институты хезмәткәрләре программаның сыйфатын автоматик яктан тикшерсә, студентлар уку процессы вакытында тәрҗемәчедә җибәрелгән хаталарны анализлый, төрле тәрҗемәчеләрне тикшерә. Бу мәгълүмат алга таба институт хезмәткәрләренә машина тәрҗемәчесенең эшчәнлеген яхшыртырга тагын да булыша.

Әлеге программаны тәкъдим итү вакытында студентлар үзләре дә төрле мисаллар әйтеп, тәрҗемәчене сынады. Мисал өчен, Александр Сергеевич Пушкинның “Я помню чудное мгновенье...” шигырен “TatSoft” бер хилафсыз татарчага тәрҗемә итте. Ә Габдрахман Әпсәләмовның “Ак чәчәкләр” әсәреннән өзектә, текстта хата китү сәбәпле, русчага тәрҗемә иткәндә дә кытыршылык булды. Студентлар әйткән “Без кош теле яратабыз” дигән җөмләне генә тәрҗемәче “Мы любим птичий язык”, дип тәрҗемә итте. Әлбәттә, бу көлке тоелса да, кулланучыны тупикка кертергә мөмкин дигән сүз бит! Димәк, тәрҗемәчене тагын да ныграк камилләштерергә кирәк әле.

Һәркемгә эш җитәрлек

– Гомумән алганда, бу – 30 елга якын дәвамында барган эшчәнлек. Ул республиканың дәүләт программасы нигезендә тормышка ашырылды. Бу эштә безгә Татарстан Президенты Аппараты, Министрлар Кабинеты, республиканың Мәгариф һәм фән министрлыгы ярдәм итте, Г. Ибраһимов исемендәге Тел, әдәбият һәм сәнгать институты иганәче буларак чыгыш ясады. Киләчәктә дә даими рәвештә бу продуктны куллануыгызны телим. Әгәр көн саен биредә һәркем берәр җөмлә тәрҗемә итсә дә, без тагын 5 миллион җөмлә тәрҗемә итәбез дигән сүз , – ди  “Сәләт” проектлары җитәкчесе Җәүдәт Сөләйманов.

Алинә Минневәлиева, «Ялкын»

фотолар Реальное Время сайтыннан алынды 


Исемлеккә күчү