在初高中英文閱讀理解這件事上,普通人類已經不是AI對手了。這就是AI最新獲得的成就。在CMU語言技術研究所發起RACE數據集上,全球豪強紛紛
在初高中英文閱讀理解這件事上,普通人類已經不是AI對手了。
這就是AI最新獲得的成就。
在CMU語言技術研究所發起RACE數據集上,全球豪強紛紛一展身手。
最終,依然由中國軍團雄霸天下。
而且一位高中生,甚至單槍匹馬力壓騰訊和康奈爾聯隊。
此外,第一二名爭奪也異常激烈且頗富戲劇性。
微信AI和云從交大,上演了一出生死時速的好戲。
怎樣一回事?
中國AI軍團雄霸全球競賽
此次比賽所用數據集RACE,全稱:Large-scale ReAding Comprehension Dataset From Examination,是一個從初中和高中試題中收集的大型英文閱讀理解數據集。
2017年正式對外推出,主要考察AI模型在英文閱讀理解方面的學習能力。
從推出至今,總共有13支全球豪強來試過身手。除了前面提到的微信AI、云從、騰訊AI Lab和康奈爾之外,OpenAI、微軟研究院、IBM研究院也都參與其中。
但2年以來,還沒有哪支團隊的AI模型真正實現超越人類水平。
但就在今年1月,中國公司云從科技和上海交大聯隊,首次在高中生數據集部分實現了AI模型水平對人類超越,該排名也一度占據榜首50多天。
如此成績,云從自然應該慶祝一番。
不過熟料戰況異常激烈,萬萬沒想到,在云從刷榜通告發出后不久,中國另一代表隊——微信AI提交最新成績,并成功實現超越,且還是對人類水平的全面超越。
這年頭,慶功都不允許雍容款款了。
微信第一,BERT稱王
那么微信AI模型,究竟有何獨到之處?
在RACE中,微信AI模型整體正確率73.5%,超過了普通人類的73.3%。
其使用的是選項比較網絡(OCN),模仿人類完成閱讀理解任務的做法,在單詞級別上對各個選項進行比較,以識別其中的相關性,來幫助推理答案。
不過,在這個競賽中,更大的贏家卻是BERT。
微信AI使用的模型,正是基于BERT。
不僅僅是微信AI,榜單二三名,也都是基于BERT。
目前排名第二的選手,上海交大與云從提出的雙協同匹配網絡(DCMN),可以模擬段落、問題和答案之間的雙向關系,來進行更好的推理。在RACE數據集高中題目上拿下了69.8%準確率,超過普通人類表現。
BERT的成績,并不會讓人太過意外。
這個于2018年10月由谷歌推出模型,剛一問世便交出了一份驚人的成績單。
在機器閱讀理解頂級水平測試SQuAD1.1中,全面超越人類表現,并在11種不同NLP測試中創出最佳成績。
現在,SQuAD 2.0榜單已經被BERT壟斷,前30名之中都很難見到不用BERT的選手。
在我們今天要講的RACE競賽中,借BERT上榜的還有一名高中生。他來自新加坡立化中學,也是中國人。
他的模型,比騰訊AI Lab和康奈爾大學提出模型成績還要好。
高中生力壓騰訊AI Lab+康奈爾
這位高中生名叫司程磊,初中就讀于合肥市第五十中學,2015年被新加坡立化中學錄取。
他的這項研究并不復雜,只是基于RACE數據集對預訓練好的BERT模型進行調參。
司程磊在GitHub頁上聲明自己的成果是基于BERT的PyTorch實現。但作為一名高中生,已經開始上手調參煉丹,的確比不少同齡人要超前了不少。
還在高中就讀的司程磊展現出了對計算機科學的濃厚興趣,他的GitHub頁上顯示他正在自學斯坦福大學的NLP課程CS224N,還在Coursera上自學加州大學圣迭戈的算法課程。
另一方面,他也在關注NOI(全國信息學奧林匹克競賽)、ACM競賽。
司程磊可不僅僅把這些停留在簡單的關注上,每門學過的課程,他都認認真真地在GitHub上編寫習題的代碼。
言歸正傳,司程磊根據模型的精細程度,將結果分成基本BERT(BERT_base)和大型BERT(BERT_large)兩部分。BERT_large的batch size更小,學習率更低,因此在測試結果上優于BERT_base。
不過,騰訊AI Lab被超越,也是情理之中。
他們上次提交成績,還是在2018年10月。
當時,他們基于Transformer的模型,在多個閱讀理解數據集上都實現了最優結果。
但現在已經是2019年了,BERT已經開源,成了各個NLP模型中的核心。
而2017年推出的RACE,也因此迎來革命性時刻。
RACE:讓AI做高考題的數據集
RACE(Large-scale ReAding Comprehension Dataset From Examination),由兩位來自中國的博士生提出,是一個從初中和高中試題中收集的大型英文閱讀理解數據集。
RACE一共收集了28,130篇文章,包含了98,432個問題。 數據集又分為RACE-M(初中)和RACE-H(高中)兩個部分。
RACE由中學教師設計,用于測試學生的閱讀理解技能。要想選出正確答案,不能直接從原句子中尋找,而是需要找到相關的上下文,還需要邏輯推理并運用社會、數學、文化等方面的常識進行分析。這對AI是個很大的考驗。
關于RACE數據集的文章曾被EMNLP 2017收錄,當時最先進的機器閱讀理解模型也只能獲得42.3%的正確率,而在亞馬遜的眾包平臺Turkers上,人類的平均正確率達到了73.3%,上限成績是94.5%。
△數據集作者用Sliding Window和Stanford AR兩個模型的測試結果與人類對比
顯然最先進模型與人類表現之間存在顯著差距,RACE很適合作為機器閱讀的測試標準。
開發這個數據集的,是卡內基·梅隆大學的兩位在讀博士賴國堃和謝其哲,他們都曾都在微軟亞洲研究院實習過。
除了閱讀理解外,這兩位還提出過英文完型填空的數據集CLOTH。他們去年12月用BERT模型超越了人類得分。
謝其哲畢業于上海交大ACM班,目前正在攻讀CMU博士學位,已有多篇論文被ACL、EMNLP、NIPS等頂會收錄。
他的本科導師俞凱,是蘇州思必馳信息科技有限公司首席科學家,同時也是上海交通大學蘇州人工智能研究院執行院長。
也是名師出高徒的又一例證。
后生可畏
當然,現在各大全球AI競賽被中國軍團霸榜,早已見怪不怪了。
遠的不說,2018年的國際頂級口語機器翻譯評測大賽IWSLT上,搜狗第一,訊飛第二,阿里巴巴第三,承包了Baseline Model賽道前三。
還有COCO+Mapillary 2018物體識別聯合挑戰賽上,中國團隊包攬全部六項賽事的第一名,其中曠視團隊獲得4項冠軍,商湯、北郵和滴滴團隊分別獲得1項冠軍。
然而與之前種種霸榜事件相比,這次大有不同,畢竟此次中國軍團中,還有嶄露頭角的高中生——此外測試標準本身,也由兩名中國留學生提出。
真是一個后生可畏的年代啊!
如果你也關注近期AI頂會的論文,還會發現各路本科生、實習生大展神威。
中國AI的年輕一代,正在源源不斷走到前臺。
看來未來AI工程師退休,都不用拖到35歲高齡了。(手動狗頭)(文/乾明 邊策)