為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」
作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |
DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。
DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。
但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。
多任務宇宙
DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。
每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。
複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。
比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。
再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。
這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。
基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。
來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。
終生學習
數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。
具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。
邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。
DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?
DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。
訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。
怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。
新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。
當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。
DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」
智慧初現
最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。
來看具體例子。首先智慧體學會臨機應變。目標有三個:
黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板
AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。
第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。
因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。
經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。
DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。
往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
資料來源:https://technews.tw/2021/07/30/deepmind_xland/
同時也有2部Youtube影片,追蹤數超過11萬的網紅Hsuanシュアン施鈺萱,也在其Youtube影片中提到,【日本流行】預測!2017日本流行語大賞!兩人在自嗨什麼啦XDD 2017流行語大賞入圍 (不負責翻譯,有錯誤請指教,謝謝! 有些比較簡單的漢字就不翻了喔~) <1>アウフヘーベン(廢除,德語) <2>インスタ映え(IG讚照) <3>うつヌケ <4>うんこ漢字ドリル(大便漢字練習本) <5>炎...
將棋ai 在 Technews 科技新報 Facebook 的最讚貼文
苦於類化能力差,AI 強化學習只能從頭開始訓練?DeepMind 又給了我們一個小驚喜!「元宇宙」究竟是什麼?一起來看看。
將棋ai 在 財經主播/主持人 朱楚文 Facebook 的最佳解答
▶️EP65【科技趨勢話題】完全自學規則的AI誕生!人工智慧征服圍棋後,也將征服人類?/專訪「紅面棋王」周俊勳
🎧廣播Podcast節目/科技領航家/朱楚文主持
《科技領航家》每週向科技人聊科技事,
近期您如果有關心產業發展,
您會發現在2021年,
AI依然是產業非常火熱的話題。
CES 2021前陣子落幕,
擁有許多 #AI新應用的發表,
但您有想過自己該如何跟AI共處嗎?
而現在AI又發展到什麼程度了呢?
還記得之前DeepMind公司創造的 #AlphaGo
與圍棋世界冠軍柯潔對弈,
AlphaGo壓倒性勝出,
人工智慧發展震驚全球。
去年底DeepMind 發表新一代的 AI 系統 #MuZero,
更聲稱能在不知道遊戲規則的狀態下自學,
精通西洋棋、圍棋、將棋等等。
今年節目非常榮幸邀請到
全台灣唯一和AlphaGo下過棋的人,
他就是曾勇奪 #世界職業圍棋冠軍 的
「#紅面棋王」#周俊勳。
從2008年起,
周俊勳就加入圍棋人工智慧的對弈訓練,
一路見證圍棋AI發展。
歡迎棋王分享AI與人類的差異為何?
AI如何改變圍棋世界?
我們該怎麼放大身為人類的優勢?
人類棋士的 #覆盤 與AI的自我調整差別在哪?
紅面棋王周俊勳
💥本集Podcast收聽➤➤ https://user72908.psee.io/39r55p
——
🎧 楚文的廣播Podcast節目|#科技領航家
✨ 聚焦科技趨勢話題 科技人懂理財 科技人職場衝
IC 之音 FM97.5
首播 每周二18:30-19:00、重播 每周三 08:15-08:45
將棋ai 在 Hsuanシュアン施鈺萱 Youtube 的最佳解答
【日本流行】預測!2017日本流行語大賞!兩人在自嗨什麼啦XDD
2017流行語大賞入圍
(不負責翻譯,有錯誤請指教,謝謝!
有些比較簡單的漢字就不翻了喔~)
<1>アウフヘーベン(廢除,德語)
<2>インスタ映え(IG讚照)
<3>うつヌケ
<4>うんこ漢字ドリル(大便漢字練習本)
<5>炎上○○
<6>AIスピーカー(AI speaker)
<7>9・98(10秒の壁)
<8>共謀罪
<9>GINZA SIX
<10>空前絶後の
<11>けものフレンズ(Kemono Friends,日本卡通)
<12>35億
<13>Jアラート(J警報)
<14>人生100年時代
<15>睡眠負債
<16>線状降水帯
<17>忖度(そんたく)(推測他人的心情)
<18>ちーがーうーだーろー!(不~是~這~樣~的~吧~)
<19>刀剣乱舞
<20>働き方改革(勞動改革)
<21>ハンドスピナー
<22>ひふみん(HIfumin,人名,前將棋士)
<23>フェイクニュース(假新聞)
<24>藤井フィーバー(藤井炫風,日本最年少專業將棋士)
<25>プレミアムフライデー(Premium Friday)
<26>ポスト真実(Post真實)
<27>魔の2回生
<28>○○ファースト(○○First)
<29>ユーチューバー(Youtuber)
<30>ワンオペ育児(一人家事工作育兒全都做)
參考來源:
https://www.nikkansports.com/general/nikkan/news/201711090000432.html
https://www.nikkansports.com/general/nikkan/news/201711100000193.html
秋本江里奈
💚Facebook:秋本江里奈 Akimoto Erina
https://goo.gl/nAkhwR
💚Twitter:https://mobile.twitter.com/erina_akimoto
💚Instagram:erina_akimoto
https://www.instagram.com/erina_akimoto/?hl=ja
-------------------------------------------------------
誠徵編輯字幕者
英文、日文、中文
http://www.youtube.com/timedtext_cs_panel?tab=2&c=UCdFbwstgBvBaGIPpB6v0BXA
編輯者請臉書私訊或mail
我會在臉書或影片說明寫上你的名字感謝你喔💘
--------------------------------------------
訂閱【Hsuan】Youtube頻道 http://www.youtube.com/tshsuan
追蹤【Hsuan】的FB粉絲團:http://goo.gl/A3tjGE
追蹤【Hsuan】的推特:http://goo.gl/K0ZTX1
追蹤【Hsuan】的IG https://goo.gl/Sjh15w

將棋ai 在 真電玩宅速配 Youtube 的最佳解答
雖然《POKEMON GO》還不確定何時才會上市,但POKEMON公司日前宣布了,今年春季將推出另一款手機遊戲:《寶可夢戰棋大師》,想在手機上和寶可夢互動,玩家們應該不用等很久囉!
本作是由POKEMON公司和HEROZ共同開發,玩家要收集各種寶可夢棋子並編成隊伍,再由AI人工智慧來替玩家下棋,在棋盤上打敗敵人。 HEROZ公司是以開發下棋類AI聞名,之前推出的將棋手機遊戲,還曾打敗日本職業棋士! 哇~ 由玩家選擇寶可夢組隊,再由AI打敗對手,這真是符合卡通中的寶可夢大師和寶可夢共同戰鬥的感覺呢! 叫人實在等不及要下載來玩了,Aries我要把遊戲裏全部的寶可夢都收集完全!
(C)POKEMON COMPANY (C)HEROZ
電玩宅速配粉絲團:https://www.facebook.com/tvgamexpress
美女愛玩Game節目:https://www.youtube.com/playlist?list=PLWtF_vHNbmch7miQgRA-pKZl0au2oGvrO
休閒平台:http://myfun.gamedb.com.tw
最hot攻略:http://www.gamedb.com.tw/
遊戲庫粉絲團:http://www.facebook.com/Gamedbfans
