<button id="obsbj"></button>
      <dd id="obsbj"></dd>
    1. <tbody id="obsbj"><pre id="obsbj"></pre></tbody>
      1. <th id="obsbj"></th>

          1. 今天是2022年1月7日 星期五,歡迎光臨本站 

            圍棋知識

            AlphaGo在圍棋界“孤獨求敗”,Deepmind再出新一代機器人

            文字:[大][中][小] 手機頁面二維碼 2017/12/1     瀏覽次數:    

            本周,Nature雜志報道了英國DeepMind團隊的最新進展:他們開發出了新一代的圍棋AI——AlphaGo Zero。AlphaGo Zero使用強化學習技術(Reinforcement Learning),大幅提升了棋力。它現在能夠以更少的計算資源,輕松擊敗曾經戰勝世界冠軍李世石、柯潔的AlphaGo前代版本。

            AlphaGo Zero與之前版本最大的區別在于,AlphaGo Zero從隨機對局開始,通過自我對弈來提升自己的棋藝,從不依靠任何人類的監督或對局數據。而在以往版本中,AlphaGo都是使用業余和專業人類棋手的對局數據來訓練自己。雖然使用人類棋手的數據可以讓AI學習到人類的圍棋技巧,但是人類專家的數據通常難以獲得且很昂貴。此外,即使是專業棋手,也難免會有失誤,而使用錯誤的訓練數據可能會降低AlphaGo的棋力。況且,僅僅使用人類數據會讓AI局限于人類的圍棋知識。

            更重要的是,AlphaGo在圍棋界已是“獨孤求敗”的境界,所以,要突破自己的界限,甚至圍棋知識的界限,顯然只有AlphaGo自己才能做自己的老師。

            從算法上來說,AlphaGo Zero更簡潔、漂亮,讓我想起愛因斯坦的KISS原則:simple but not simpler。這一次,AI在人類的幫助下,在一個給定的規則下,自主發現新知識,并且糾正人類的錯誤知識,而且以驚人的速度達到這一點。有趣的是,AlphaGo無法解釋,只能demo給人類。在這個特定的小領域,人類和人工智能一起創造了新知識。

            經過幾百萬盤的自我博弈后,AlphaGo Zero進步明顯,不僅棋力大幅增強,運算速度也提升了不少。在100盤對局中,僅使用1臺機器、4個TPU的AlphaGo Zero對使用多臺機器、48個TPU的AlphaGo Lee取得全勝,后者曾經擊敗韓國名將李世石。在同樣配置下,AlphaGo Zero對AlphaGo Master取得89勝11負的壓倒性優勢,后者就是2017年1月在頂級圍棋在線對戰平臺上取得60戰60勝的神秘選手Master。而且,AlphaGo Zero訓練了72小時就完勝AlphaGo Lee,僅用40天就超越了AlphaGo Master。這主要得益于DeepMind團隊開發的新型強化學習技術。

            何為強化學習技術?簡單來講,強化學習使用一套獎勵機制,讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)與神經網絡算法。其中,神經網絡算法給出落子方案,以及預測當前形勢下的勝方;MCTS算法可以看成是一個弈棋策略的評價和改進工具,它能夠模擬出AlphaGo Zero落子在哪些地方可以獲得更高的勝率。如果AlphaGo Zero從神經網絡得出的下一手棋的走法越相似于MCTS算法輸出的結果,則勝率越大,即所謂回報越高。如此,在每一著棋中,AlphaGo Zero都要優化神經網絡中的參數,使其計算出的落子方案更接近MCTS算法的結果,同時盡量減少勝者預測的偏差。開始的時候,AlphaGo Zero的神經網絡完全不了解圍棋,只好盲目下棋。但經過日以繼夜的“左右互搏”般的訓練,無數盤對局后,AlphaGo Zero迅速從圍棋小白成長為傳奇棋神。

            除了改進人工智能技術外,DeepMind團隊也希望能夠通過AlphaGo項目獲得對圍棋更深的認識。他們發現,AlphaGo Zero僅僅自我對弈幾十天就掌握了人類幾百年來研究出來的圍棋技術,而且棋路獨特。例如,AlphaGo Zero很喜歡下出定石(圍棋術語)的新型變種。這是因為它沒有使用人類數據,不再囿于人類現有的圍棋理論。

            “當前的最強版本,AlphaGo Zero向我們展示了即使不用人類的數據,即使使用更少的計算資源,也能夠取得長足進步。最終我們想用這些技術進展去解決現實問題,如蛋白質折疊或者新材料設計。如果我們能夠在這些問題上取得同樣進展,這將會增進人類的認知,從而改善每個人的生活?!盌eepMind的共同創辦者兼CEO,Demis Hassabis如是說。


            專注教育  關心成長


            蜀山校區地址:長江西路與潛山路交口天玥中心1號寫字樓14層

            電話0551-65560566

            廬陽校區地址:徽州大道與環城路交口建設廳二樓新東方隔壁(南小本部向南200米)

            電話0551-65560507

            返回上一步
            打印此頁
            0551-65660566
            瀏覽手機站

            <button id="obsbj"></button>
              <dd id="obsbj"></dd>
            1. <tbody id="obsbj"><pre id="obsbj"></pre></tbody>
              1. <th id="obsbj"></th>

                  1. 欧美乱子伦xxxx12_刘亦菲大战老外a∨在线_欧美制服丝袜人妻另类_性欧美黄aaaaa片