Jamiyat | 09:55
2337
7 daqiqa o‘qiladi

“Sun’iy idrok hali o‘zbekchani to‘liq tushunmaydi” – Google’dagilarga dars o‘tgan o‘zbek qizi

Tarjima dasturlari yoki chatbotlar o‘zbek tilida ham xatosiz ishlashi uchun nima qilish kerak, buning uchun qanday yondashuvlar talab etiladi? Germaniyaning Kayzerslautern-Landau universiteti magistranti Latofat Bobojonova ayni shu kabi savollarga javob topish uchun ilmiy izlanish olib bormoqda. Kun.uz muxbiri bilan suhbatda u kompyuterning matn yoki nutq orqali o‘zbek tilini yaxshiroq tushunib, qoniqarli javob qaytarishi uchun nimalar yetishmayotgani, Google’dagi muammolarga taklif etgan yechimlari haqida gapirib berdi.

Video thumbnail
{Yii::t(}
O'tkazib yuborish 6s

Latofat Bobojonova Toshkent shahridagi 266-maktabda ta’lim olgan. Oliy ta’limning bakalavriat bosqichini Toshkent axborot texnologiyalari universitetida dasturiy muhandislik yo‘nalishi bo‘yicha tamomlagan. Shundan so‘ng DAAD xalqaro stipendiyasini yutib, Germaniyaning Kayzerslautern-Landau universitetiga o‘qishga kirgan va so‘nggi bir yarim yilda mazkur dargohda ilmiy xodim sifatida faoliyat yuritgan.

U yerda “Kam resursli agglutinativ tillar uchun transformer modellarda morfologik ma’lumotli tokenizatorlar ta’sirini o‘rganish” mavzusida ilmiy ish olib borgan. Yosh olima kam tarqalgan va murakkab tuzilmali tillarda sun’iy idrok yaxshi ishlashi uchun so‘zlarni grammatik jihatdan to‘g‘ri ajratish qanchalik muhimligini o‘rgangan. Xususan, o‘zbek tilida tabiiy tilni qayta ishlash (NLP) funksiyasini takomillashtirishni tadqiq qilgan.

BERT, GPT, LLaMA, T5 kabi katta til modellarining o‘zbek tilida ishlashini yaxshilash borasida izlandim. Tadqiqotlar shuni ko‘rsatdiki, agar bu modellarni o‘zbek tilidagi matnga so‘zlar yoki oddiy harflar ketma-ketligi asosida emas, balki morfemalarga ajratgan holda o‘rgatsak, ularning o‘zlashtirish tezligi 8 barobar oshadi. Bu nimani anglatadi? Masalan, oddiy holatda modelni to‘rt kunda trenirovka qilish kerak bo‘lsa, morfemalarga asoslangan yondashuv bilan ushbu jarayon atigi yarim kunda yakunlanadi. Natijada siz nafaqat vaqt, balki mablag‘ va elektr energiyasini ham tejaysiz. Demak, bu ekologik jihatdan ham foydalidir. Eng muhimi, qisqa vaqt ichida savollarga aniq javob beradigan modelga erishish mumkin bo‘ladi”, – deydi u.

Latofatning aytishicha, o‘zbekcha matnlarini raqamli qayta ishlash jarayonida aqlli tizimlarning til birliklarini aniqlay olishi qobiliyati muhim ahamiyatga ega. Chunki o‘zbek tilida bir so‘z butun bir jumla funksiyasini bajarishi ham mumkin.

Masalan, “kelmaganlardanmisiz” degan so‘z qanday so‘z turkumiga kiradi? Bu birlik yuklamami, fe’lmi yoki butun bir gap vazifasini bajarayotgan murakkab birikmami? Tadqiqot loyihamda aynan shu kabi savollarga javob izladim. Berilgan gapdagi har bir so‘zning ot, fe’l, sifat singari qaysi so‘z turkumiga mansubligini neyron tarmoqlar yordamida belgilash funksiyasini takomillashtirish takliflarini ishlab chiqdim. Bunday tizimni yaratish uchun avvalo o‘zbek tilining lingvistik xususiyatlarini chuqur o‘rgandim. Tahlil qilishda asosiy birlik nima bo‘lishi kerak — so‘zmi, morfemami yoki qo‘shimchami? Shularni tekshirdim va sun’iy idrok modellari uchun kerakli formatda ma’lumot tayyorlash usullarini yozdim. O‘zbek tilining murakkabligi, ya’ni qo‘shimchalar orqali grammatik ma’no ifodalash tizimi (agglutinativ tuzilishi) jarayonni biroz qiyinlashtirdi. Ingliz tilida bu kabi murakkablik kamroq uchraydi”, – deydi Latofat Bobojonova.

Tadqiqotchining so‘zlariga ko‘ra, kompyuterning o‘zbek tilini to‘liq tushunishidagi katta muammolaridan yana biri – bu kontekst sezgirligi (context sensitivity). Matndagi har bir so‘z yonidagi qo‘shni so‘zlar yoki butun gapga qarab turli so‘z turkumi sifatida tavsiflanishi mumkin. Bu faqatgina so‘z turkumlarini aniqlashda emas, balki butun matnning ma’nosini to‘g‘ri ifodalash va tahlil etishda ham muhim rol o‘ynaydi.

Bugungi kunda o‘zbek tilidagi NLP (tabiiy tilni qayta ishlash texnologiyasi)ning asosiy muammosi boshlang‘ich resurslar, ya’ni darsliklar, tahlil qilingan ma’lumotlar to‘plamining kamligida. Sun’iy idrok modelining to‘g‘ri ishlashi uchun, avvalo, unga nima to‘g‘ri, nima noto‘g‘ri ekanini aniq ko‘rsatib bera oladigan raqamli ma’lumotlar bazasi zarur”, – deydi yosh olima.

Uning aytishicha, bunday tizimni yaratishda faqat grammatik qoidalarni hisobga olish yoki so‘zlarning ma’nosini to‘g‘ri aniqlash funksiyalarini ishlab chiqishning o‘zi kifoya qilmaydi. Tildan to‘g‘ri foydalanish uchun nafaqat grammatika, balki insonning hayot tajribasi, madaniy qadriyatlari va jamiyatdagi vaziyatlarni ham bilish talab etiladi.

Bu esa tilshunoslar, dasturchilar va kontent muhandislarining o‘zaro hamkorligini talab etadi. Tilshunoslar tilning tabiati va qoidalarini tushuntirsa, dasturchilar bunday ma’lumotlarni to‘g‘ri formatda kodlash uchun texnologiyalarni ishlab chiqadi, kontent muhandislari esa matnlarni kontekstga muvofiq tushunish bo‘yicha manba tayyorlaydi. Shundagina biz o‘zbek tilida kontekstga muvofiq ishlaydigan, aniq va inson tiliga yaqin tizimga ega bo‘lishimiz mumkin”, – deydi u.

Intervyu davomida Latofat sun’iy idrokning ilmiy tadqiqotlarda qo‘llanishi, prompt muhandisligi haqidagi fikrlari bilan bo‘lishdi. Shuningdek, Google kompaniyasidagi faoliyati, u yerdagi muammolarga taklif etgan yechimlari, ish takliflari kelib tushayotganiga qaramay nega bu yirik kompaniyaga qaytmayotgani haqida gapirib berdi.

Suhbatni to‘liq holda Kun.uz’ning YouTube’dagi kanalida tomosha qilishingiz mumkin.

Diyoraxon Nabijonova suhbatlashdi.
Operator: Ziyaddin Mammatjonov
Montaj ustasi: Abdulloh Hasanov

Mavzuga oid