Сунъий интеллект тобора кучайиб бормоқда, лекин кўпроқ хатога йўл қўймоқда – ОАВ

Сунъий интеллект билан боғлиқ энг кенг тарқалган муаммолардан бири бу «галлюцинациялар» бўлиб, моделлар маълумот ва фактларни бирон бир манба билан қўллаб-қувватламасдан, шунчаки уйдираётгани таъкидланмоқда.

Фото: Thomas Fuller/SOPA Images/LightRocket via Getty Images

Сунъий интеллект (СИ) тилида фикр юритувчи сўнгги йирик моделлар, хусусан, OpenAI компаниясининг энг кучли модели бўлган о3 ўзидан олдингиларга қараганда кўпроқ хато қилмоқда, деб ёзди The New York Times.

Шу каби муаммолар бошқа компанияларнинг СИ моделларида, масалан, Google ёки Хитойнинг DeepSeek стартапида ҳам учрайди. Уларнинг математик имкониятлари сезиларли даражада ошишига қарамай, жавоблардаги хатолар сони фақат ортмоқда.

Ишлаб чиқувчиларнинг саъй-ҳаракатларига қарамай, бизнес учун сунъий интеллект воситалари яратадиган Vectara стартапининг бош директори Амр Авадалла галлюцинациялар доимо мавжуд бўлишини айтди.

Бундай галлюцинацияга мисол сифатида Cursor воситасини техник қўллаб-қувватлайдиган СИ боти бўлди. У асбобни фақат битта компьютерда ишлатиш мумкинлигини айтиб, нотўғри маълумот берди. Бу шикоятлар тўлқинига ва ҳатто фойдаланувчилар томонидан аккаунтларнинг ўчирилишига олиб келди. Кейинчалик маълум бўлишича, компания бундай ўзгаришларни амалга оширмаган - буларнинг барчасини бот ўйлаб топган.

Турли моделларни алоҳида синовдан ўтказишда галлюцинациялар, яъни хаёлий фактлар даражаси 79 фоизга етди. OpenAI ички тестида о3 модели машҳур шахслар ҳақидаги саволларга берилган жавобларнинг 33 фоизида хатога йўл қўйди. Бу о1 моделига нисбатан икки баравар кўп. Янги о4-мини модели бундан ҳам ёмонроқ ишлади ва 48 фоиз ҳолатда хатога йўл қўйди.

Умумий саволларга жавоб берганда, о3 ва о4-мини моделларида галлюцинациялар даражаси янада юқори эди - мос равишда 51 фоиз ва 79 фоиз. Таққослаш учун, эски о1 модели хатолари 44 фоизни ташкил этди. OpenAI бундай хатоларнинг сабабларини тушуниш учун қўшимча тадқиқотлар зарурлигини тан олмоқда.

Компаниялар ва тадқиқотчилар томонидан ўтказилган мустақил тестлар шуни кўрсатадики, галлюцинациялар Google ва DeepSeek фикрлаш моделларида ҳам учрайди. Компанияларнинг ушбу хатоларни тузатишга уринишларига қарамай, ўтган йил ичида галлюцинациялар атиги 1-2 фоизга камайди.

#OpenAI #Сунъий интеллект #DeepSeek