close

AlphaGo的成功:那些讓我們憂傷不安和憧憬的

5月份,AlphaGo再次引起轟動,大敗世界排名第一的圍棋手,使人工智能正式稱霸圍棋界。隻要看看媒體的報道,你就能嗅到迎面而來的末日氣息。

毫無疑問,柯潔的認輸引燃瞭一種揮之不去的傷感。去年,AlphaGo戰勝李世乭的消息震驚全球,這位隻有19歲的中國棋界天才當即表示,自己絕不會輸給人工智能台北靜電油煙處理機出租。而對戰當天桃園靜電機租賃,揪著自己的頭發、幾乎要伏案而戰的柯潔,讓我們全程目睹瞭豪言壯語的一點點崩解,所以怎能不讓人憂傷?

不過,若是隻盯著這點不放的話,你就找錯瞭重心。作為AlphaGo的開發者,谷歌子公司DeepMind的本意並不是碾壓人類——畢竟,運作這傢公司的依然是人類。AlphaGo是人類的重大成就,我們的解讀不應是AI能力超越瞭人類,而是AI將強化人類的能力。

AlphaGo是怎麼戰勝柯潔的?

德米斯·哈薩比斯,DeepMind聯合創始人兼桃園靜電機出租CEO

在烏鎮圍棋峰會上,我采訪瞭DeepMind與谷歌的開發人員。去年與李世乭展開圍棋大戰時,AlphaGo取得瞭四勝一負的戰績,而在我跟開發人員交流時,聽到他們談得最多的,不是它勝的那四局,而是輸掉的那一局。

“我們想看看能否解決這些問題——我們稱之為知識差距,在第四局比賽中,李世乭出奇制勝,暴露瞭AlphaGo知識中存在的缺陷。”DeepMind聯合創始人兼CEO德米斯·哈薩比斯(Demis Hassabis)在活動首日表示。

“我們試圖彌合這一知識差距,試著教會AlphaGo,或讓它通過自學,學會應對這種圍棋局面。我們相信,現在的AlphaGo更善於應對這些局面瞭。不過,在跟柯潔這樣的高手過招之前,我們並不確知。”

結果,AlphaGo連勝三局,力壓柯潔。從中可以看出,所謂的知識差距已被彌合。但值得一提的是,為達到這一水平,DeepMind不得不從AlphaGo以往的失誤中學習。如果這一年來它都原地踏步,那麼,實力遠超李世乭的柯潔完全有可能將它擊倒。然而,AlphaGo並沒有固步自封。

和柯潔對弈的AlphGo是經過徹底重構的版本,DeepMind稱之為AlphaGo Master。

“AlphaGo Master”的主要創新就在於,它開始指導自己學習。”大衛·席爾瓦(Dave Silver)說。“現在,AlphaGo可以從自己的搜索中學習,以改進它的神經網絡——包括政策網絡和價值網絡——使它更加寬泛地學習。最令我們激動的不是它棋藝的提升,而是它能廣泛應用於其他高難度領域。”

AlphaGo由兩個網絡構成:一為“政策網絡”,負責選擇下一手該怎麼走;一為“價值網絡”,進行分析勝算。政策網絡以專業圍棋手的歷史棋局為最初的基石。而AlphaGo Master比原版本深入得多,它通過搜索,確定走出某一手棋後可能引出的所有下法,從中提升它對潛在後果的理解。

“原系統自我對弈瞭數百萬局,但沒有涉及到這種搜索的使用,”哈薩比斯在接受采訪時說。“AlphaGo Master則能自食其力地完善自己的預測。因此,先前的版本主要是生成數據,這次的版本則是使用自己的搜索功能,及其自己的能力,來完善自己的一部分,即政策網絡。”基本來講,現在的AlphaGo更善於評估所有選項,找出最強有力的一手。

我問哈薩比斯:若沒有歷史棋局充當初始數據集,這個系統能否奏效。“我們正在運行這方面的測試,老實說,我們還是挺自信的。”他說。“初步結果還挺不錯。這是我們未來一篇論文的一部分,所以還不能公開討論,但成果是比較喜人的。其總體思路就是降低對人類引導過程的依賴。”

但要打敗柯潔,AlphaGo就得解決當初李世乭所揭露出來的那個缺陷。雖然通過自我對弈,AlphGo變得越來越強大,但要彌合知識差距,DeepMind就不能依賴這種基礎訓練,也不能手動編寫解決方案。“它不像傳統程序,把Bug修復瞭就好瞭,”哈薩比斯說,他認為,未來,各種學習系統都可能面臨類似的知識差距。

“你必須連哄帶騙地促使它學習新知識,或探索新區域,為此,我們可以采取很多不同的戰略。我們可以用對手對抗的形式,迫使它探索這些區域,或是保留不同版本的AlphaGo,讓它們相互對弈,使棋手庫更加多樣化。”

“我們還做瞭一件事,就是經過評估,找出我們認為AlphaGo不善應對的棋局類型。我們通過算法,在自我對弈的棋局中找出這些局面——即另編一個算法,從這些棋局中找到AlphaGo會遇到此類問題的地方。

由此,我們針對這類局面建立瞭一個庫。這樣一來,在測試新系統時,我們不僅可以讓機器自我對弈,還可以讓它與已知的問題棋局庫對弈,從而量化改進程度。”

大衛·席爾瓦,DeepMind公司AlphaGo項目首席研究員

這些性能的改進並不需要追加額外的運算能力。相比對弈李世乭的那個版本,AlphaGo Master耗用的運算能力竟要低得多;它的運行僅靠Google Cloud中區區一枚二代TPU(張量處理單元)就完成瞭,而之前的版本要同時用到50個TPU。

“你不能想當然地以為,運行AlphaGo所需的計算力不是一般人所能企及的。”席爾瓦說。“其特殊之處在於算法,而非計算量。”

AlphaGo正在學習人類,雖然未來的它也許不需要這樣做;反過來,人類也在學習AlphaGo。最簡單的例子就是柯潔對AI的第一局比賽,柯潔采用瞭三三開局。這種下法在近幾十年中逐漸式微,但因為AlphaGo的巧妙運用,它又開始重現江湖。

在第二局中,柯潔將AlphaGo逼到瞭極限。AlphaGo得出結論:柯潔的前50手堪稱“完美”,而前100手之高明,勝過瞭AlphaGo Master當時對弈過的所有對手。

雖然AlphaGo的某些走法在當時可能不為圍棋界所理解,但事後證明,AlphaGo提供瞭一種看待圍棋的全新方式。圍棋已經存在瞭數千年之久,在如何下棋和研究圍棋的問題上,AlphaGo引發瞭有史以來最為深刻的變革之一。

那麼,對不懂圍棋的人而言,AlphaGo又有何意義呢?

AI帶來的啟示與不安

安德魯·傑克森(Andrew Jackson)和韓國圍棋協會高級秘書長李夏辰探討AlphaGo對柯潔

比方說,你是谷歌數據中心的一名工程師。你有責任確保所有機器高效運行,而且不能讓設備過熱。也許你采用的辦法是,通過系統設計,將同時運行的冷卻設備數量降至最低——隻有當第一臺設備滿負荷之後,才會打開第二臺,以此類推。這樣做不無道理。不過,一個名為“Dr。 Data”的AlphaGo版本有不同意見。

“Dr。 Data決定開啟盡可能多的處理單元,使他們保持低速運轉,”哈薩比斯說。“考慮到開關、泵等的運作,那樣反而更合理。我覺得,新的數據中心在設計時,正在考慮這種做法。他們選取其中一些概念,重新整合入新的設計——這是AI系統沒法做到的。所以,人類設計師觀察著這個AlphaGo版本的做法,將結果納入下一步的決策中去。”谷歌的數據中心已經采納瞭“Dr。 Data”,使谷歌冷卻用電節省瞭40%,能耗降低15%。

DeepMind認為,同樣的原理也適用於科學和醫療。從蛋白質折疊到造影,深度學習技術能幫助提升各項目工作的精度和效率。另外,看似平常但十分重要的是,它也許還能使工作流更加合理。“比如在一傢醫院裡有一名護士正在使用一種非常高效的做法,或是眾多醫院中有一傢醫院正在使用某種非常高效的流程,”哈薩比斯說。

“也許他們的做法和同行略有不同,也許別的醫院就可以效而仿之。我認為,目前,你永遠不知道這些東西,而AI系統也許能辨別這些情況,在不同的醫生和醫院之間共享信息,使最佳實踐得以普及。”

當然,在這些領域推廣AI的障礙和顧慮尤其之多。人們懷疑AI也不是沒有道理——我就有所體會。

我入住的酒店與烏鎮圍棋峰會的會場同屬一個建築群。內部的一些區域設有門禁,采用瞭百度機器學習支持的面部識別技術。每次,我還沒找到攝像頭的位置,它就瞬間識別完畢瞭;過門禁時,我的個人檔案頭像就會在屏幕上閃過。數千名與會者來來往往,沒見哪次是識別失敗的。而識別的依據,隻是我在辦理入住時,工作人員用iPad拍攝的一張照片。

我也知道,Facebook、谷歌和其他無數公司都應該知道我的長相。但在為期一周的圍棋峰會期間,每一天,我的臉都會被準確無誤識別好幾次,這讓我有些不自在。這說明,企業在推出AI技術時,應審慎而行。在某種程度上,這也解釋瞭AlphaGo的勝利為何讓如此多人感到不安。

但話又說回來,這場勝利是人類一手創造的。AlphaGo已經向我們證明,當AI與人類切磋共進的時候,其力量是多麼的強大。在現階段,我們不妨抱以樂觀的心態。

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    pne71il822 發表在 痞客邦 留言(0) 人氣()