產(chǎn)品展廳收藏該商鋪

您好 登錄 注冊

當前位置:
東莞市森和機械設備有限公司>公司動態(tài)>森和智能--AlphaGo Zero橫空出世 一招過后 笑傲江湖

公司動態(tài)

森和智能--AlphaGo Zero橫空出世 一招過后 笑傲江湖

閱讀:1202          發(fā)布時間:2018-9-25
迄今較強較新穎的版本AlphaGo Zero,使用純強化學習,將價值網(wǎng)絡和策略網(wǎng)絡整合為一個架構(gòu),3天訓練后就以100比0擊敗了上一版本的AlphaGo

      
東莞市森和機械設備有限公司是一家致力于工業(yè)自動化系統(tǒng),智能工廠整體方案,專業(yè)研發(fā),設計,生產(chǎn)塑料機械設備,工業(yè)冷水機,螺桿冷凍機,模溫機,干冰清洗機,金屬分離設備的廠商,擁有不同領(lǐng)域的專業(yè)化團隊,為世界提供高品質(zhì)的產(chǎn)品和服務。
       公司積極貫徹和響應制造強國戰(zhàn)略的中國制造2025計劃,力求開拓創(chuàng)新,勤于探索,勇于實踐,銳意進取,不斷研發(fā)新產(chǎn)品,努力提升產(chǎn)品人機交互的便利性,智慧性,互聯(lián)性以及互通性,并矢志不渝全面推動未來工業(yè)4.0。
       公司成立于2007年,經(jīng)過10年風雨歷程,公司業(yè)務不斷增長擴大,產(chǎn)品享譽海內(nèi)外,在2017年,森和迎來了產(chǎn)品品牌全面升級,我們啟動了產(chǎn)品質(zhì)量全面流程管理,對供應商產(chǎn)品鏈數(shù)據(jù)進行集成優(yōu)化處理,從產(chǎn)品設計端到產(chǎn)品交付客戶的終端,森和實現(xiàn)全線質(zhì)量數(shù)據(jù)跟蹤管理,大幅度提升客戶滿意度,也增強了我們與客戶合作的長遠規(guī)劃。

    記得上次Alphago 戰(zhàn)勝柯潔,從此隱退江湖,但是他的傳奇仍在繼續(xù)DeepMind 近期公布了他們新版AlphaGo論文,也是他們新的Nature-神經(jīng)元網(wǎng)絡論文,介紹了迄今較強較新的版本AlphaGo Zero,使用純強化學習,將價值網(wǎng)絡和策略網(wǎng)絡整合為一個架構(gòu),3天訓練后就以100比0擊敗了上一版本的AlphaGo。AlphaGo已經(jīng)退休,但技術(shù)永存。DeepMind已經(jīng)完成圍棋上的概念證明,接下來就是用強化學習創(chuàng)造改變世界的價值。

    AlphaGo Zero*不依賴于人類數(shù)據(jù),因此,這一系統(tǒng)的成功也是朝向人工智能研究*以來的目標——創(chuàng)造出在沒有人類輸入的條件下,在較具挑戰(zhàn)性的領(lǐng)域?qū)崿F(xiàn)超越人類能力的算法——邁進的一大步。

    AlphaGo Zero 得到這樣的結(jié)果,是利用了一種新的強化學習方式,在這個過程中,AlphaGo Zero 成為自己的老師。這個系統(tǒng)從一個對圍棋游戲*沒有任何知識的神經(jīng)網(wǎng)絡開始。然后,通過將這個神經(jīng)網(wǎng)絡與一種強大的搜索算法相結(jié)合,它就可以自己和自己下棋了。在它自我對弈的過程中,神經(jīng)網(wǎng)絡被調(diào)整、更新,以預測下一個落子位置以及對局的z終贏家。

    這個更新后的神經(jīng)網(wǎng)絡又將與搜索算法重新組合,進而創(chuàng)建一個新的、更強大的 AlphaGo Zero 版本,再次重復這個過程。在每一次迭代中,系統(tǒng)的性能都得到一點兒的提高,自我對弈的質(zhì)量也在提高,這就使得神經(jīng)網(wǎng)絡的預測越來越準確,得到更加強大的 AlphaGo Zero 版本。

    這種技術(shù)比上一版本的 AlphaGo 更強大,因為它不再受限于人類知識的局限。相反,它可以從一張白紙的狀態(tài)開始,從世界上較強大的圍棋玩家——AlphaGo 自身——學習。

    AlphaGo Zero 在其他方面也與之前的版本有所不同:
AlphaGo Zero 只使用圍棋棋盤上的黑子和白子作為輸入,而上一版本的 AlphaGo 的輸入包含了少量人工設計的特征。

 它只使用一個神經(jīng)網(wǎng)絡,而不是兩個。以前版本的 AlphaGo 使用一個“策略網(wǎng)絡”(policy network)來選擇下一個落子位置和一個“價值網(wǎng)絡”(value network)來預測游戲的贏家。這些在 AlphaGo Zero 中是聯(lián)合進行的,這使得它能夠更有效地進行訓練和評估。

AlphaGo Zero 不使用“走子演算”(rollout)——這是其他圍棋程序使用的快速、隨機游戲,用來預測哪一方將從當前的棋局中獲勝。相反,它依賴于高質(zhì)量的神經(jīng)網(wǎng)絡來評估落子位置。

    上面的所有這些不同之處都有助于提高系統(tǒng)的性能,使其更加通用。但使得這個系統(tǒng)更加強大和的是算法的改變。

    在進行了3天的自我訓練后,AlphaGo Zero 在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界排名的韓國九段棋士李世乭。經(jīng)過 40 天的自我訓練后,AlphaGo Zero 變得更加強大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上的棋士、世界的柯潔。

    在經(jīng)過數(shù)以百萬計的 AlphaGo vs AlphaGo 的對弈后,這個系統(tǒng)逐漸從零開始學會了下圍棋,在短短幾天內(nèi)積累了人類數(shù)千年積累的知識。AlphaGo Zero 也發(fā)現(xiàn)了新的知識,開發(fā)出非常規(guī)的策略和創(chuàng)造性的新下法,這些新下法超越了它在與柯潔和李世乭比賽時發(fā)明的新技巧。

    盡管目前仍處于早期階段,但 AlphaGo Zero 成為了朝著這個目標邁進的關(guān)鍵一步。DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 評論稱:AlphaGo在短短兩年里取得了如此令人驚嘆的成果。現(xiàn)在,AlphaGo Zero是我們項目中較強大的版本,它展示了我們在更少的計算能力,而且*不使用人類數(shù)據(jù)的情況下可以取得如此大的進展。

    “終,我們希望利用這樣的算法突破來幫助解決現(xiàn)實世界的各種緊迫問題,例如蛋白質(zhì)折疊或新材料設計。如果我們能在這些問題上取得與AlphaGo同樣的進展,就有可能推動人類理解,并對我們的生活產(chǎn)生積極影響。”
 
    AlphaGo Zero 技術(shù)細節(jié)拆解:將價值網(wǎng)絡和策略網(wǎng)絡整合為一個架構(gòu),整合蒙特卡洛搜索不斷迭代
 
 
三千年圍棋只用三天走過 簡潔的AlphaGo更美

1、將策略網(wǎng)絡和價值網(wǎng)絡合并,組成一個可以同時輸出策略p和價值v的新網(wǎng)絡。

1.1、簡化了新網(wǎng)絡的結(jié)構(gòu)。新策略·價值網(wǎng)絡的輸入特征平面由48個減少到了17個。其中,涉及圍棋知識的輸入特征(氣(liberty)、征子(ladder))被刪去。
2、新策略 價值網(wǎng)絡只需通過強化學習來訓練,無需監(jiān)督學習。即無需輸入人類高手棋譜作為初始訓練樣本,只需用隨機落子作為初始訓練樣本。
3、優(yōu)化了蒙特卡洛搜索樹,主要是省去了快速走子(rollout policy),節(jié)約大量實戰(zhàn)計算成本。
3.1、 快速走子策略也需要輸入大量人類已知的圍棋知識,比如如何點死大眼(Nakade, 如點死直三、丁四、刀把五等棋型的僅有招法)。省去快速走子,也就省去了輸入這些知識的麻煩。
4、改卷積網(wǎng)絡為殘差網(wǎng)絡,提高訓練效率。

    公司為了滿足客戶日益定制化的需求,在加工設備方面積極引進激光切割設備,高速加工中心羅德斯設備,精密坐標測量儀器??怂箍担苈呓z設備阿奇夏米爾,德國柯羅斯精密剪板機和精密折彎機等設備,以精益求精,工藝嚴謹?shù)膽B(tài)度,做好我公司設備,系統(tǒng)每一個零部件,力求提升整體產(chǎn)品在工業(yè)設計端充滿創(chuàng)新,在結(jié)構(gòu)優(yōu)化端充滿創(chuàng)意。
      公司加工區(qū)以及組裝區(qū)總面積超過15000平方米,隨著公司業(yè)績節(jié)節(jié)攀升,我們預計在后續(xù)不斷擴大產(chǎn)能, 在平穩(wěn)中求發(fā)展,在強大中更務實,我們深信,我們的每一分努力,都有一分來自您的認可,選擇森和,是您未來事業(yè)倍增的合作伙伴。

收藏該商鋪

登錄 后再收藏

提示

您的留言已提交成功!我們將在第一時間回復您~

對比框

產(chǎn)品對比 二維碼 意見反饋

掃一掃訪問手機商鋪
在線留言