Azərbaycan dili üçün maşın tərcüməsi: niyə «ən ağıllı» süni intellekt həmişə ən yaxşısı deyil
Nigar Hüseynova, viasoft-un Sİ və data mühəndisi
Azərbaycan dilinə tərcümə üçün «ən güclü» universal süni intellekt modeli həmişə ən yaxşı seçim deyil. Azərbaycan dili öyrədici verilənləri çatışmayan dillərə (low-resource, az resurslu) aiddir, ona görə də universal tərcüməçilər bir qayda olaraq onun öhdəsindən ingilis və ya rus dilinə nisbətən daha pis gəlir. Azərbaycan və türk mətnləri üzərində əlavə öyrədilmiş ixtisaslaşmış tərcüməçi (NMT) çox vaxt böyük universal süni intellektdən daha dəqiq nəticə verir. Üstəlik, maşın tərcüməsinin keyfiyyətini yalnız avtomatik metrikalarla qiymətləndirmək olmaz — burada son hakim insandır. Aşağıda — niyə belədir və bu sizin tərcümə layihənizə necə təsir edir.
Tərcümə layihənizi pulsuz təhlil edək → Əlaqə · Məsələni müzakirə edin → Layihə miqyasının qiymətləndirilməsi
«Verilənləri çatışmayan dil» nədir və niyə vacibdir
Maşın tərcüməsi nəhəng həcmdə paralel mətnlər — «orijinal və onun tərcüməsi» cütləri — üzərində öyrənir. Dildə belə cütlər nə qədər çox olsa, model bir o qədər yaxşı tərcümə edir. İngilis dili üçün onlar yüz milyonlarladır; Azərbaycan dili üçün isə müqayisəolunmaz dərəcədə azdır.
Verilənləri çatışmayan dil (low-resource, az resurslu) — bu, modellərin öyrədilməsi üçün keyfiyyətli paralel mətnlərin az olduğu dildir. Azərbaycan dili məhz belədir. Bundan praktik nəticə çıxır: «ingilis — rus» cütü ilə əla işləyən tərcüməçi «rus — Azərbaycan» cütündə nəzərəçarpacaq dərəcədə daha zəif nəticə verə bilər. Bu, konkret servisin günahı deyil, dilin süni intellekt dünyasındakı xüsusiyyətidir.
Universal süni intellekt nə üçün Azərbaycan dilinə daha pis tərcümə edir
Böyük universal modellər (hər suala cavab verən elə həmin modellər) Azərbaycan dilini «yeri gəlmişkən», qalıq verilənlər üzərində öyrəniblər. Onlar səlis səslənir, lakin Azərbaycan dilində terminlərdə, hallarda və məna nüanslarında daha çox səhv edir — xüsusən hüquqi və ya texniki kimi ixtisaslaşmış mətnlərdə.
Sifarişçiləri təəccübləndirən paradoks: daha «ağıllı» və bahalı universal model Azərbaycan dilinə mütləq ixtisaslaşmış modeldən yaxşı tərcümə etmir. Böyük universal süni intellekt hər işə yarayan ustadır; məhz türk mətnləri üzərində əlavə öyrədilmiş dar tərcüməçi isə mütəxəssisdir. Az yayılmış dildə mütəxəssis daha çox qalib gəlir.
İxtisaslaşmış NMT nə vaxt böyük modeldən daha dəqiqdir
Burada iki aləti ayırmaq lazımdır:
- Böyük universal model (LLM) — hər şeyi az-az bacaran model. Səlislik və ümumi mətnlər üçün, xüsusən «böyük» dillərdə yaxşıdır.
- İxtisaslaşmış maşın tərcüməçisi (NMT) — məhz tərcüməyə öyrədilmiş model. Onu Azərbaycan və türk korpusları üzərində konkret mövzuya uyğun əlavə öyrətmək olar.
Azərbaycan dili üçün qanunauyğunluq belədir: məsuliyyətli və dar ixtisaslı mətnlərdə əlavə öyrədilmiş NMT çox vaxt daha dəqiqdir, çünki o, terminləri «xatırlamaq» əvəzinə dilə və terminlərə köklənib. Böyük model ifadələrin səlisliyində qalib gələ bilər, lakin müqavilədə və ya təlimatda səlis, amma qeyri-dəqiq tərcümə bir az daha az zərif, lakin doğru tərcümədən daha təhlükəlidir. Buna görə alət seçimi — ən tanınmış servisin ardınca qaçmaq deyil, mətnin növünə və səhvin qiymətinə uyğun qərardır. Yeri gəlmişkən, əlavə öyrədilmiş modeli sizin məxfi süni intellektinizdə yerləşdirmək olar — onda mətnlər özgə buluda getmir.
Türk dili kömək edir: dillərin yaxınlığı resurs kimi
Azərbaycan dilinin müttəfiqi var — türk dili. Dillər yaxın qohumdur və bu, texniki olaraq istifadə olunur: türk dili üzərində öyrədilmiş model (orada verilənlər daha çoxdur) biliyin bir hissəsini Azərbaycan dilinə ötürür. Biznes üçün bu o deməkdir ki, türk dillərinin iştirak etdiyi cütlər (az↔tr) çox vaxt «az yayılmış» dildən gözlənildiyindən daha keyfiyyətli və ucuz alınır. Əgər layihəniz türk bazarına toxunursa, bu yaxınlıq sizin xeyrinizə işləyir.
Niyə yalnız «maşının keyfiyyət qiymətləndirməsinə» inanmaq olmaz
Tərcümə keyfiyyətini avtomatik metrikalarla ölçmək qəbul olunub — proqram maşın tərcüməsini etalonla müqayisə edib bal verir. Bu rahatdır, amma bir tələ var: məşhur metrikalar çox vaxt böyük süni intellekt modellərinin etdiyi tərcümənin keyfiyyətini daha pis tutur və insanın dərhal gördüyü məna səhvlərini həmişə hiss etmir.
Sifarişçi üçün praktik nəticə: tərcüməni «gözəl metrika balına görə» almayın. Avtomatik qiymətləndirmə — açıq-aşkar pisi süzgəcdən keçirməyə və şübhəlini işarələməyə kömək edən filtrdir, lakin keyfiyyətin son hakimi insandır, xüsusən məsuliyyətli mətnlərdə. Canlı redaktorun iştirakı olmadan keyfiyyəti «bizdə bal N-dir» kimi satan hər hansı icraçı işi sadələşdirir.
Bu sizin layihənizə necə təsir edir (artefakt)
Praktik qaydalarda toplayaq:
- Mətnin növü aləti müəyyən edir. Marketinq və ümumi mətnlər — daha çevik olmaq olar; müqavilələr, təlimatlar, tibb — dəqiqlik səlislikdən vacibdir, əlavə öyrədilmiş tərcüməçi və insan nəzarəti lazımdır.
- Səhvin qiyməti insanın rolunu müəyyən edir. Yüksəkdirsə — mütləq vərəqdən keçirmə; aşağıdırsa — avtomatik rejimə yol verilir.
- Qlossari vacibdir. Vahid terminologiya (sizin adlar, terminlər) əvvəlcədən təyin olunur, əks halda tərcümə «gəzir».
- Türk dilləri cütləri — ayrıca üstünlük. Türk dili varsa, dillərin yaxınlığından istifadə edin.
- Keyfiyyət canlı mətnlər üzərində yoxlanılır, bir metrika üzrə deyil.
Məhz bu qaydalara uyğun tərcümə və səsli süni intellekti qururuq: maşın həcmi öz üzərinə götürür, insan keyfiyyətə nəzarət edir, model sizin dilinizə uyğun əlavə öyrədilir.
FAQ
- Süni intellekt nə üçün Azərbaycan dilinə ingilis dilindən daha pis tərcümə edir? Çünki Azərbaycan dili öyrədici verilənləri çatışmayan dildir (low-resource, az resurslu): onun üçün modellərin öyrəndiyi paralel mətnlər azdır.
- Azərbaycan dili üçün nə yaxşıdır — böyük süni intellekt, yoxsa ixtisaslaşmış tərcüməçi? Məsuliyyətli və dar mətnlərdə çox vaxt türk korpusları üzərində əlavə öyrədilmiş ixtisaslaşmış tərcüməçi (NMT) daha dəqiqdir. Böyük model daha səlis, lakin daha az dəqiq ola bilər.
- Tərcümənin avtomatik keyfiyyət qiymətləndirməsinə güvənmək olarmı? Filtr kimi — bəli, son hökm kimi — yox. Metrikalar böyük süni intellekt modellərinin tərcüməsində daha pis işləyir; son hakim insandır.
- Türk dili Azərbaycan dilinə tərcüməyə kömək edirmi? Bəli. Dillər yaxın qohumdur və biliklər türk dilindən (orada verilənlər daha çoxdur) Azərbaycan dilinə ötürülür — az↔tr cütləri çox vaxt daha keyfiyyətli və ucuzdur.
- Tərcüməni süni intellekt edirsə, insan lazımdırmı? Səhvin qiymətindən asılıdır. Müqavilələrdə, təlimatlarda, tibdə — mütləqdir. Səhvin qiyməti aşağı olan ümumi mətnlərdə — avtomatik etmək olar.