AI - Artificial Intelligence ဖွံ့ဖြိုးတိုးတက်လာမှုကြောင့် တစ်ချို့နေရာတွေမှာ လူသားနဲ့ကွန်ပျူတာ ယှဉ်ပြိုင်တဲ့အခါ လူသားတွေ ရှုံးနိမ့်လာပါတယ်။ ဒါကို Go ကစားပွဲတွေက သက်သေပြနေပါတယ်။
၂၀၁၆ ခုနှစ်၊ ဆိုးလ်မြို့မှာကျင်းပတဲ့ Go ကွန်ပျူတာဂိမ်းကစားပွဲမှာ လေးပွဲယှဉ်ပြိုင်ကစားရာမှာ နာမည်ကြီး ကစားသမားတစ်ယောက်ဖြစ်တဲ့ Lee Sedol တစ်ပွဲနိုင်ပြီး ကျန်ပွဲတွေမှာ AI နည်းပညာသုံး AlphaGo ဆိုတဲ့ ကွန်ပျူတာကို ရှုံးနိမ့်ခဲ့ပါတယ်။ ဒီကစားပွဲဟာ Go နဲ့ အလိုအလျောက်သိမြင်နားလည်နိုင်တဲ့ နည်းပညာဖွံ့ဖြိုးတိုးတက်မှု (AI) သက်တမ်းတစ်လျှောက်မှာ အကြီးမားဆုံးကစားပွဲတစ်ခုဖြစ်ပါတယ်။ တရုတ်၊ ကိုရီးယားနဲ့ ဂျပန်နိုင်ငံတွေမှာ Go နေရာယူနိုင်ခဲ့တာဟာ အနောက်နိုင်ငံတွေမှာ Chess ကစားနည်း ခေတ်စားလာသလိုပါပဲ။ Mr Lee ကို အနိုင်ယူခဲ့ပြီးတဲ့နောက် AlphaGo ဟာ တခြားနာမည်ကြီး ကစားသမားတွေကိုလည်း အနိုင်ပိုင်းနိုင်ခဲ့ပါတယ်။ ၂၀၁၇ ခုနှစ် ၊ မေလက ဝူကျန်း၊ တရုတ်ပြည်မှာ ကျင်းပတဲ့ AlphaGo ကစားပွဲမှာတော့ နာမည်ကျော် KeJie က ရှုံးနိမ့်ခဲ့ပြန်ပါတယ်။
AlphaGo ရဲ့ အောင်မြင်မှုကတော့ AI ရဲ့ အလိုအလျောက်နားလည်နိုင်စွမ်းကို သက်သေပြလိုက်တာဖြစ်ပြီး ကွန်ပျူတာတွေအနေနဲ့ ရှုပ်ထွေးလှတဲ့ ပြဿနာတွေကို အလိုအလျောက်ဖြေရှင်းသွားနိုင်ဖို့ ရည်ရွယ်ပါတယ်။ AlphaGo အနေနဲ့ Go ကစားနည်းကို ကမ္ဘာကျော်ကစားသမားတွေနဲ့ ယှဉ်ပြိုင်ကစားပြီး နည်းစနစ်တွေကို လိုတိုးပိုလျှော့လုပ်၊ အသစ်ပြန်လည်ဖန်တီးပြီး ကောင်းသထက်ကောင်းအောင် တီထွင်နေတာဖြစ်ပါတယ်။ ဒီလိုအမြဲဆန်းသစ်ပေးနေတာက လူသားကစားသမားတွေထက် ဉာဏ်ရည်တက်စေပါတယ်။ AlphaGo ကို တီထွင်တဲ့ Deep-Mind က သုတေသနပညာရှင်တွေကတော့ သူတို့အနေနဲ့ တိုးတက်အောင် လုပ်ပေးနိုင်တယ်လို့ ခံယူထားကြပါတယ်။ Nature ရဲ့ စာမျက်နှာတစ်ခုမှာ သူတို့ရဲ့နောက်ဆုံး Version ဖြစ်တဲ့ AlphaGo Zero အကြောင်းကို ဖော်ပြထားပါတယ်။ နည်းပညာပိုင်းမှာ Game ထက်ပိုကောင်းလာပြီး ကစားရတာလည်း ပိုမြန်လာပါတယ်။ အရင် Version နဲ့မတူတာကတော့ AlphaGo ဟာ သူ့အလိုအလျောက် Game ကို သိနေမှာဖြစ်ပြီး ပညာရှင်တွေက သင်ပြပေးစရာ မလိုတော့ပါဘူး။
Game အမိုက်စားတွေလိုမျိုး Go က သင်ယူရတာလွယ်ပေမယ့် ထိန်းချုပ်ဖို့ခက်တဲ့ Game တစ်ခုပါ။ ကစားသမားနှစ်ယောက်က အလျား ၁၉ ကြောင်း၊ အနံ ၁၉ ကြောင်းပါတဲ့ ဘုတ်ပြားပေါ်မှာ အဖြူ၊ အမဲတုံးလေးတွေကို အလှည့်ကျနေရာချရပါတယ်။ ပွဲမှာပြိုင်ဘက်ထက် နေရာများများပိုရဖို့က အဓိကပါပဲ။ ပြိုင်ဘက်ရဲ့ အတုံးလေးတွေ ဝိုင်းခံထားရတဲ့ ကိုယ့်အတုံးလေးတွေကတော့ ဘုတ်ပြားပေါ်က ဖယ်ထုတ်ခံရမှာပါ။ ကစားသမားတွေအနေနဲ့ ခြေကုန်လက်ပန်းကျအောင်ကို ဆက်ဆော့နေရမှာပါ။ ဘုတ်ပြားပေါ်ကနေရာအလွတ်တွေမှာ အတုံးလေးတွေ အလှည့်ကျနေရာချရင်း နေရာအများဆုံးယူနိုင်တဲ့သူက အနိုင်ရမှာဖြစ်ပါတယ်။
ကစားရင်းနဲ့ ခက်ခဲလာမှာကတော့ ရွှေ့ဖို့အကွက်တွေ ရှာတာပါပဲ။ ၁၉x၁၉ ဘုတ်ပြားပေါ်မှာ အမဲရောင်အတုံးလေးတွေ ရွှေ့ဖို့ ၃၆၁ ကွက်ရှိပါတယ်။ အဖြူရောင်အတုံးလေးတွေအတွက်ကတော့ ၃၆၀ ကွက် နေရာယူနိုင်ပါတယ်။ ပညာရှင်တွေက ဒီကစားနည်းကိုနားလည်အောင် ကြိုးစားဖို့ထက် အနိုင်ရဖို့ပဲကြိုးစားနေကြပါတယ်။ Go ရဲ့ ရိုးရှင်းတဲ့ သဘောသဘာဝဖြစ်တဲ့ ဘဝနဲ့သေခြင်းတရားကို နားလည်ဖို့က အဓိကပါ။ လူတွေက ဒီသဘောတရားတွေကိုနားလည်ကြပေမယ့် ကွန်ပျူတာပရိုဂရမ်ကို ထိန်းချုပ်ဖို့က မလွယ်လှပါဘူး။ AlphaGo အနေနဲ့ လူသားအရေခြုံ ဂိမ်းကစားနည်း တော်တော်များများကို လေ့လာထားပြီးပါပြီ။ လူသားတွေက ဒီသဘောတရားတွေကို နားလည်နိုင်သလိုကွန်ပျူတာတွေလည်း နားလည်လာနိုင်အောင် Supervised Learning နည်းစနစ်နဲ့ ထိန်းကျောင်းသင်ကြားပေးထားပါတယ်။ Supervised Learning ၊ လူသားပညာရှင်တွေနဲ့ အကြိမ်ပေါင်းများစွာသင်ယူလာတဲ့ AlphaGo ဟာ နောက်ပိုင်းမှာတော့ ကစားနည်းတိုင်းကို သူ့ဘာသာသူ ဖြေရှင်းလာနိုင်ပါတယ်။ Supervised Learning နည်းစနစ်ရဲ့ အကူအညီနဲ့ ကွန်ပျူတာတွေဟာ ဓာတ်ပုံထဲက လူတွေကိုမှတ်မိလာနိုင်သလို လူတွေရဲ့ စကားသံကိုလည်း မှတ်ထားတတ်ပါပြီ။ ဒါပေမယ့် DemisHassabis (Deepmind သူဌေး) ရဲ့ အဆိုအရ Supervised Learning မှာလည်း အကန့်အသတ်တွေရှိတယ်လို့ သိရပါတယ်။ သင်ကြားပေးမယ့် Data အချက်အလက်တွေကို ကွန်ပျူတာထဲကိုထည့်ပြီး ဘာလုပ်ရမလဲဆိုတာကို လူသားပညာရှင်တွေကပဲ စီမံသင်ကြားပေးတာ ဖြစ်ပါတယ်။ ဥပမာ-လူသားတွေကို မှတ်မိစေနိုင်မယ့် Face Recognition Data ထည့်ပေးရာမှာ လူပါတဲ့ပုံနဲ့ လူမပါတဲ့ပုံတွေကို လူတစ်ယောက်ချင်းစီဖိုင်တွဲလိုက် ထည့်ထားပေးတာမျိုး။ လူသားတွေကပဲ ကွန်ပျူတာတွေကို စီမံနေတဲ့အတွက် ကွန်ပျူတာတွေအနေနဲ့ တိုးတက်သင့်သလောက် မတိုးတက်နိုင်တော့ပါဘူး။
ဒီလိုပြဿနာမျိုးတွေမဖြစ်အောင် AlphaGo က Training တွေမယူဘဲ Game ရဲ့ စည်းမျဉ်းနဲ့ပဲစခဲ့တာ ဖြစ်ပါတယ်။ နိုင်ရင် တစ်မှတ်ရပြီး ရှုံးရင် တစ်မှတ်အလျှော့ခံရမှာ ဖြစ်ပါတယ်။ ဒီတော့ အမှတ်များများယူပြီး အနိုင်ရအောင် ပြိုင်ရမှာပါ။ ကစားနည်းကိုတော့ အတုံးလေးတွေ ရွှေ့တာကနေစပါတယ်။ ဘယ်နေရာကို ဘယ်လိုပဲရွှေ့ရွှေ့ အဓိကကတော့ မြန်မြန်ရွှေ့နိုင်ဖို့ပါပဲ။ ၂၀၁၆ ခုနှစ်၊ ပြိုင်ပွဲစတဲ့ ပထမရက်မှာတင် အဆင့်မြင့်နည်းပညာနဲ့ ယှဉ်ပြိုင်နိုင်ခဲ့ပြီး ဒုတိယရက်မှာတော့ Mr Lee ကို အနိုင်ရခဲ့ပါတယ်။
လူသားတွေဆီက အကြံဉာဏ်မယူဘဲ ကိုယ့်ဘာသာကိုယ် လေ့လာစေတာကလည်း တကယ့်ကိုကောင်းပါတယ်။ ဥပမာ-Joseki လိုမျိုး ဘုတ်ပြားရဲ့ ထောင့်စွန်းဘက်ကနေ အကွက်ရွှေ့နိုင်တာမျိုးပေါ့။ Joseki နည်းစနစ်ကို AlphaGo Zero က သိမြင်လာခဲ့ပါတယ်။ AlphaGo Project ခေါင်းဆောင် David Silver ကတော့ ဒီကစားနည်းဟာ ပုံမှန်ကစားနေကျ လူသားဆန်တဲ့ ကစားနည်းမဟုတ်ဘူးလို့ ဆိုပါတယ်။ Go မှာ ယှဉ်ပြိုင်ပြီးရလာတဲ့အမှတ်တွေကို Elo rating (ချက်စ်ကို Zerosum ကစားနည်းအမျိုးတွေမှာ ကစားသမားရဲ့ အရည်အချင်းကို တွက်ချက်တဲ့နည်းစနစ်) နဲ့ မှတ်ထားပါတယ်။ ကစားသမားတစ်ယောက်ချင်းစီကိုတူညီတဲ့ Elo rating နဲ့ ပြိုင်ဘက်တွေကို ယှဉ်ပြိုင်ခွင့်ပေးထားပါတယ်။ ဒါပေမယ့် Rating က အမှတ် ၂၀၀ ပိုများနေမှသာ ပြိုင်ဘက်ကို အနိုင်ပိုင်းနိုင်မှာဖြစ်ပြီး အခွင့်အလမ်းက ၂၅ ရာခိုင်နှုန်းပဲ ရှိပါတယ်။ MrKe ရဲ့ Rating က ၃၆၆၁ ဖြစ်ပြီး Mr Lee ကတော့ Rating ၃,၅၂၆ ဖြစ်ပါတယ်။ ရက် ၄၀ ကြာ Training ပြီးတဲ့နောက်မှာ AlphaGo Zero ရဲ့ Rating က ၅,၀၀၀ ကျော်နေပါပြီ။ MrKe မဟုတ်တဲ့ တခြားပညာရှင်တွေတောင် တော်ရုံမယှဉ်ပြိုင်နိုင်တဲ့ Rating ပဲ ဖြစ်ပါတယ်။
သမိုင်းကြောင်းနဲ့ ရိုးရာပေါင်းစပ်ထားတဲ့ ကစားနည်းတစ်ခုဖြစ်တဲ့ AlphaGo ရဲ့ အားသာချက်ကတော့ ကစားသမားတွေအနေနဲ့ ရှေးဟောင်းအသိပညာတွေကို လေ့လာဆင်ခြင်သုံးသပ်နိုင်တာပါပဲလို့ Mr Silver က ဆက်ပြောပါတယ်။ AlphaGo ကို ရှုံးပြီးတဲ့နောက်ပိုင်း MrKe ဟာ ကွန်ပျူတာရဲ့ ရွှေ့လျားမှုတွေကို လေ့လာခဲ့ပါတယ်။ လူသားပညာရှင်အချင်းချင်းယှဉ်ပြိုင်တဲ့ 22-game winning streak မှာ MrKe ဟာ သူနဲ့လက်ရည်တူပညာရှင်ကို အနိုင်ရခဲ့ပါတယ်။ Supervised Learning ကတော့ နေရာတိုင်းမှာ အသုံးဝင်နေဦးမှာပါ။
နန်းဆွယ်ဆီဝမ်း