閱讀理解競賽微信AI稱王 AI工程師或將在35歲之前退休

2019-03-11 14:20:46 來源：量子位

在初高中英文閱讀理解這件事上，普通人類已經不是AI對手了。這就是AI最新獲得的成就。在CMU語言技術研究所發起RACE數據集上，全球豪強紛紛

在初高中英文閱讀理解這件事上，普通人類已經不是AI對手了。

這就是AI最新獲得的成就。

在CMU語言技術研究所發起RACE數據集上，全球豪強紛紛一展身手。

最終，依然由中國軍團雄霸天下。

而且一位高中生，甚至單槍匹馬力壓騰訊和康奈爾聯隊。

此外，第一二名爭奪也異常激烈且頗富戲劇性。

微信AI和云從交大，上演了一出生死時速的好戲。

怎樣一回事?

中國AI軍團雄霸全球競賽

此次比賽所用數據集RACE，全稱：Large-scale ReAding Comprehension Dataset From Examination，是一個從初中和高中試題中收集的大型英文閱讀理解數據集。

2017年正式對外推出，主要考察AI模型在英文閱讀理解方面的學習能力。

從推出至今，總共有13支全球豪強來試過身手。除了前面提到的微信AI、云從、騰訊AI Lab和康奈爾之外，OpenAI、微軟研究院、IBM研究院也都參與其中。

但2年以來，還沒有哪支團隊的AI模型真正實現超越人類水平。

但就在今年1月，中國公司云從科技和上海交大聯隊，首次在高中生數據集部分實現了AI模型水平對人類超越，該排名也一度占據榜首50多天。

如此成績，云從自然應該慶祝一番。

不過熟料戰況異常激烈，萬萬沒想到，在云從刷榜通告發出后不久，中國另一代表隊——微信AI提交最新成績，并成功實現超越，且還是對人類水平的全面超越。

這年頭，慶功都不允許雍容款款了。

微信第一，BERT稱王

那么微信AI模型，究竟有何獨到之處?

在RACE中，微信AI模型整體正確率73.5%，超過了普通人類的73.3%。

其使用的是選項比較網絡(OCN)，模仿人類完成閱讀理解任務的做法，在單詞級別上對各個選項進行比較，以識別其中的相關性，來幫助推理答案。

不過，在這個競賽中，更大的贏家卻是BERT。

微信AI使用的模型，正是基于BERT。

不僅僅是微信AI，榜單二三名，也都是基于BERT。

目前排名第二的選手，上海交大與云從提出的雙協同匹配網絡(DCMN)，可以模擬段落、問題和答案之間的雙向關系，來進行更好的推理。在RACE數據集高中題目上拿下了69.8%準確率，超過普通人類表現。

BERT的成績，并不會讓人太過意外。

這個于2018年10月由谷歌推出模型，剛一問世便交出了一份驚人的成績單。

在機器閱讀理解頂級水平測試SQuAD1.1中，全面超越人類表現，并在11種不同NLP測試中創出最佳成績。

現在，SQuAD 2.0榜單已經被BERT壟斷，前30名之中都很難見到不用BERT的選手。

在我們今天要講的RACE競賽中，借BERT上榜的還有一名高中生。他來自新加坡立化中學，也是中國人。

他的模型，比騰訊AI Lab和康奈爾大學提出模型成績還要好。

高中生力壓騰訊AI Lab+康奈爾

這位高中生名叫司程磊，初中就讀于合肥市第五十中學，2015年被新加坡立化中學錄取。

他的這項研究并不復雜，只是基于RACE數據集對預訓練好的BERT模型進行調參。

司程磊在GitHub頁上聲明自己的成果是基于BERT的PyTorch實現。但作為一名高中生，已經開始上手調參煉丹，的確比不少同齡人要超前了不少。

還在高中就讀的司程磊展現出了對計算機科學的濃厚興趣，他的GitHub頁上顯示他正在自學斯坦福大學的NLP課程CS224N，還在Coursera上自學加州大學圣迭戈的算法課程。

另一方面，他也在關注NOI(全國信息學奧林匹克競賽)、ACM競賽。

司程磊可不僅僅把這些停留在簡單的關注上，每門學過的課程，他都認認真真地在GitHub上編寫習題的代碼。

言歸正傳，司程磊根據模型的精細程度，將結果分成基本BERT(BERT_base)和大型BERT(BERT_large)兩部分。BERT_large的batch size更小，學習率更低，因此在測試結果上優于BERT_base。

不過，騰訊AI Lab被超越，也是情理之中。

他們上次提交成績，還是在2018年10月。

當時，他們基于Transformer的模型，在多個閱讀理解數據集上都實現了最優結果。

但現在已經是2019年了，BERT已經開源，成了各個NLP模型中的核心。

而2017年推出的RACE，也因此迎來革命性時刻。

RACE：讓AI做高考題的數據集

RACE(Large-scale ReAding Comprehension Dataset From Examination)，由兩位來自中國的博士生提出，是一個從初中和高中試題中收集的大型英文閱讀理解數據集。

RACE一共收集了28，130篇文章，包含了98，432個問題。數據集又分為RACE-M(初中)和RACE-H(高中)兩個部分。

RACE由中學教師設計，用于測試學生的閱讀理解技能。要想選出正確答案，不能直接從原句子中尋找，而是需要找到相關的上下文，還需要邏輯推理并運用社會、數學、文化等方面的常識進行分析。這對AI是個很大的考驗。

關于RACE數據集的文章曾被EMNLP 2017收錄，當時最先進的機器閱讀理解模型也只能獲得42.3%的正確率，而在亞馬遜的眾包平臺Turkers上，人類的平均正確率達到了73.3%，上限成績是94.5%。

△數據集作者用Sliding Window和Stanford AR兩個模型的測試結果與人類對比

顯然最先進模型與人類表現之間存在顯著差距，RACE很適合作為機器閱讀的測試標準。

開發這個數據集的，是卡內基·梅隆大學的兩位在讀博士賴國堃和謝其哲，他們都曾都在微軟亞洲研究院實習過。

除了閱讀理解外，這兩位還提出過英文完型填空的數據集CLOTH。他們去年12月用BERT模型超越了人類得分。

謝其哲畢業于上海交大ACM班，目前正在攻讀CMU博士學位，已有多篇論文被ACL、EMNLP、NIPS等頂會收錄。

他的本科導師俞凱，是蘇州思必馳信息科技有限公司首席科學家，同時也是上海交通大學蘇州人工智能研究院執行院長。

也是名師出高徒的又一例證。

后生可畏

當然，現在各大全球AI競賽被中國軍團霸榜，早已見怪不怪了。

遠的不說，2018年的國際頂級口語機器翻譯評測大賽IWSLT上，搜狗第一，訊飛第二，阿里巴巴第三，承包了Baseline Model賽道前三。

還有COCO+Mapillary 2018物體識別聯合挑戰賽上，中國團隊包攬全部六項賽事的第一名，其中曠視團隊獲得4項冠軍，商湯、北郵和滴滴團隊分別獲得1項冠軍。

然而與之前種種霸榜事件相比，這次大有不同，畢竟此次中國軍團中，還有嶄露頭角的高中生——此外測試標準本身，也由兩名中國留學生提出。

真是一個后生可畏的年代啊!

如果你也關注近期AI頂會的論文，還會發現各路本科生、實習生大展神威。

中國AI的年輕一代，正在源源不斷走到前臺。

看來未來AI工程師退休，都不用拖到35歲高齡了。(手動狗頭)(文/乾明邊策)

關鍵詞：閱讀理解微信AI 工程師

精選導讀

募資55億港元萬物云啟動招股預計9月29日登陸港交所主板

萬科9月19日早間公告，萬物云當日啟動招股，預計發行價介乎每股47 1港元至52 7港元，預計9月29日登陸港交所主板。按發行1 167億股計算，萬

發布時間： 2022-09-20 10:39

管理 2022-09-20

公募基金二季度持股情況曝光隱形重倉股多為高端制造業

隨著半年報披露收官，公募基金二季度持股情況曝光。截至今年二季度末，公募基金全市場基金總數為9794只，資產凈值為269454 75億元，同比上

發布時間： 2022-09-02 10:45

資訊 2022-09-02

又有上市公司宣布變賣房產上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產。四川長虹25日稱，擬以1 66億元的轉讓底價掛牌出售31套房產。今年以來，A股公司出售房產不斷。根據記者不完全統

發布時間： 2022-08-26 09:44

資訊 2022-08-26

16天12連板大港股份回復深交所關注函股份繼續沖高

回復交易所關注函后，大港股份繼續沖高。8月11日大港股份高開，隨后震蕩走高，接近收盤時觸及漲停，報20 2元股。值得一提的是，在7月21日

發布時間： 2022-08-12 09:56

資訊 2022-08-12

萬家基金再添第二大股東中泰證券擬受讓11%基金股權

7月13日，中泰證券發布公告，擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權，交易雙方共同確定本次交易的標的資

發布時間： 2022-07-14 09:39

管理 2022-07-14

央行連續7日每天30億元逆回購對債市影響如何？

央行12日再次開展了30億元逆回購操作，中標利率2 10%。這已是央行連續7日每天僅進行30億元的逆回購縮量投放，創下去年1月以來的最低操作規

發布時間： 2022-07-13 09:38

資訊 2022-07-13

美元指數創近20年新高黃金期貨創出逾9個月新低

由于對美聯儲激進加息的擔憂，美元指數11日大漲近1%創出近20年新高。受此影響，歐美股市、大宗商品均走弱，而黃金期貨創出逾9個月新低。美

發布時間： 2022-07-13 09:36

資訊 2022-07-13

美股三大股指全線下跌納斯達克跌幅創下記錄以來最大跌幅

今年上半年，美股持續回落。數據顯示，道瓊斯指數上半年下跌15 3%，納斯達克綜合指數下跌29 5%，標普500指數下跌20 6%。其中，納斯達克連續

發布時間： 2022-07-04 09:51

融資客熱情回升兩市融資余額月內增加超344億元

近期A股走強，滬指6月以來上漲4%，融資客熱情明顯回升。數據顯示，截至6月16日，兩市融資余額1 479萬億元，月內增加344 67億元，最近一個半

發布時間： 2022-06-20 09:41

資訊 2022-06-20

4個交易日凈買入超百億元北向資金持續流入A股市場

北向資金凈流入態勢延續。繼6月15日凈買入133 59億元后，北向資金6月16日凈買入44 52億元。自5月27日至今，除6月13日以外，北向資金累計凈

發布時間： 2022-06-17 09:37

99久久国产亚洲高清观看2020_国产免费成人_四虎国产精品永久地址入口_国产精品免费一区二区久久夜色_美国超碰在线_男人天堂tv

閱讀理解競賽微信AI稱王 AI工程師或將在35歲之前退休

精選導讀

募資55億港元萬物云啟動招股預計9月29日登陸港交所主板

公募基金二季度持股情況曝光隱形重倉股多為高端制造業

又有上市公司宣布變賣房產上市公司粉飾財報動作不斷

16天12連板大港股份回復深交所關注函股份繼續沖高

萬家基金再添第二大股東中泰證券擬受讓11%基金股權

央行連續7日每天30億元逆回購對債市影響如何？

美元指數創近20年新高黃金期貨創出逾9個月新低

美股三大股指全線下跌納斯達克跌幅創下記錄以來最大跌幅

融資客熱情回升兩市融資余額月內增加超344億元

4個交易日凈買入超百億元北向資金持續流入A股市場

每日熱點

熱門TAG

閱讀理解競賽微信AI稱王 AI工程師或將在35歲之前退休

精選 導讀

每日熱點

熱門TAG

精選導讀