人妻无码久久久久久久久久久,猫咪WWW免费人成人入口,777米奇色狠狠俺去啦奇米77

關注我們:

自然語言處理:人工智能連接主義復興浪潮中的下一個突破口

2019-07-11

來源:上海熱線

分享到:


AI行業應用是一片新的大陸,深度學習作為新大陸的基石,經歷了一輪又一輪突破。過去十年,在計算機視覺、語音

AI行業應用是一片新的大陸,深度學習作為新大陸的基石,經歷了一輪又一輪突破。過去十年,在計算機視覺、語音識別、棋類AI等計算和感知智能技術上,深度學習率先取得成功。而最近深度學習在認知智能/自然語言處理上的進展,特別是Transformer衍生模型加上兩階段預訓練語言模型范式的成功,正在將自然語言處理變成人工智能下一個最有可能的突破口。

    計算機視覺與語音的成功是破繭成蝶而非橫空出世
 
    從2010年到2017年,從LeNet到AlexNet到Inception到VGGNet到ResNet及其衍生結構,深度神經網絡加上集成學習技術在計算機視覺研究中大放異彩,在ImageNet 大規模深度視覺挑戰 (ILSVRC)的圖像分類任務上的錯誤率從28.2%一路降低到了接近2%。盡管這仍然是“實驗室環境”下的結果,但當AI在某一個單點任務上的表現接近或者超越人類的時候,就會給行業帶來巨大的商機。在視覺分類、檢索、匹配、目標檢測等各項任務上,隨著相關算法越來越準確,業界也開始在大量商業場景中嘗試這些商業技術的商用。
 
    人臉識別,作為計算機視覺技術突破帶來的代表性應用,就是在這個大背景下從技術進入成熟商業期,爆發成為了一個千億甚至萬億級別的市場。
 
 
    但在計算機視覺技術商業化的歷程中,其實也有一段不短的蟄伏期。在深度卷積神經網絡興起之前,當年微軟亞洲研究院研究人臉識別的團隊曾在內部長期遭受質疑:做了十來年,做來做去總是只有百分之六七十、七八十的準確率,看上去挺好玩,但這準確率能有啥實際應用價值呢?然而2010年開始的深度學習浪潮迅速掃清了質疑,而長期研究這個方向的被質疑者們,成了這個新商業領域的領導者,從火種涅槃成為滿天繁星。而連接主義學派的忠實信徒、蟄伏近三十年的深度學習三劍客Geoff Hinton, Yann LeCun 和Yoshua Bengio,也是因為有了在統計機器學習盛行的數十年間受盡冷眼的厚積,才有了2010年之后因為GPU算力和神經網絡模型不斷加深而產生的薄發,從而一舉獲得圖靈獎。
 

    為什么自然語言處理領域的發展要相對滯后?
 
    深度學習在計算機視覺、語音識別等感知智能技術上率先取得成功并不是偶然。深度學習秉承連接主義學派的范式,相較傳統統計機器學習技術的最大進化在于其利用了高于統計方法數個數量級的參數和極其復雜的函數組合,通過引入各種非線性和多層級感知能力,構成了遠強于統計機器學習模型的擬合能力。ResNet-152的參數量已經達到六千萬的級別,GPT-2.0的參數量達到了驚人的15億。而其他上億甚至數億級別的網絡更是數不勝數。如此復雜的模型對數據的擬合能力達到了前所未有的水平,但是同時也極大提高了過擬合的風險。這對數據提出了極高的要求。訓練數據的數量、維度、采樣均衡度、單條數據本身的稠密度(非0、不稀疏的程度),都需要達到極高的水平,才能將過擬合現象降低到可控范圍。
 
    視覺信息(圖像、視頻)恰好是這樣一類自然連續信號:一張圖片通常就有數百萬甚至上千萬像素,而且每個像素上通常都有顏色,數據量大、數據的表示稠密、冗余度也高。往往在丟失大量直接視覺信號的情況下,人還能迅速理解圖片的語義信息,就是因為自然連續信號如圖像中的場景和物體往往具有視覺、結構和語義上的共性。一個30MB的位圖圖片能被壓縮到2MB而讓人眼基本無法感知區別、一個30MB的wave音頻文件被壓縮到3MB的MP3還能基本保持主要旋律和聽感,都是因為這類自然連續信號中存在大量不易被人的感官所感知的冗余。
 
    視覺信息這種的豐富和冗余度,讓深度神經網絡得以從監督信號中去一層層提煉、一層層感知,最終學會部分判斷邏輯。深度神經網絡在感知智能階段中在視覺任務和語音任務上的成功,離不開視覺、語音信號自身的這種數據特點。
 
    今天,歸屬于感知智能類別的視覺和語音應用已經全面開花,但是屬于認知智能的自然語言處理卻發展滯后。這種發展狀態與自然語言處理的所處理數據的特點也有密不可分的關系。
 
    相對于圖片、語音給出的直接信號,文字是一種高階抽象離散信號。較之圖片中的一個像素,文本中的一個單元明顯信息密度更大、冗余度更低,往往組成句子的每一個單詞、加上單詞出現的順序,才能正確表達出完整的意思。如何利用單個文本元素(字/詞)的意思,以及如何利用語句中的順序信息,構成了近年來自然語言處理和文本分析技術的主要探索脈絡。
 
 
    在2013年詞的分布式向量表示(Distributed Representation)出現之前,如何在計算機中高效表示單個字/詞就是難以逾越的第一個坎。在只能用One-hot向量來表示字/詞的年代,兩個近義詞的表示之間的關系卻完全獨立,語義相似度無法計算;上表示一個字/詞所需的上萬維向量中只有一個維度為1,其他維度都為0,稀疏度極高。面對這類信號,深度神經網絡這類復雜的模型所擅長的化繁為簡的抽象、提煉、總結能力束手無策,因為輸入信號已經極簡到了連最基礎的自我表示都難以做到。
 
    NLP中的兩大重要挑戰:特征表示、結構/語義理解正取得關鍵進展
 
    而分布式詞向量將語言的特征表示向前推進了一大步。分布式詞向量提出了一個合理的假設:兩個詞的相似度,可以由他們在多個句子中各自的上下文的相似度去度量,而上下文相似的兩個詞會在向量空間中由兩個接近的向量來表示。這種做法部分賦予了詞向量“語義”,因為從此我們不必再讓機器去查百科全書告訴我們“蘋果”的近義詞是“梨子”,而是直接從大量的互聯網語料中去學習,原來“蘋果”的近義詞也可以是“三星”甚至“華為”。因為人們常常會說“我購買了一個蘋果手機”,也常說“我購買了一個三星手機”,模型會敏銳的學習到“蘋果”和“三星”在大量語料中出現時其上下文高度相似,因而認為兩個詞相似。分布式詞向量讓無語義、極稀疏的One-hot向量壽終正寢,而為大家提供了嵌入了語義信息、稠密的特征表示,這才使得深度神經網絡在自然語言處理和文本分析上的應用真正變得可能。
 
    捕捉語句中在獨立的詞集合基礎之上的、詞序列構成的句子結構信息也是自然語言處理和文本分析中的一個主要方向。傳統條件隨機場(CRF)考慮了前后相鄰元素和當前元素之間的依賴;長短時記憶網絡模型(LSTM)以一種衰減形式考慮了當前元素之前的元素序列;seq2seq通過注意力和編解碼的機制使得解碼時的當前元素不光能用上已經解碼完畢的元素序列,還能用上編碼前的序列的完整信息;近期各類基于Transformer結構如ELMo 、BERT、GPT-2.0、XLNet,則利用兩階段(基于自編碼或是自回歸的預訓練加基于任務的調優)模式,能夠以無監督的方式更好地利用大規模的無標注語料訓練不同句子結構中詞語之間的關系,并且突破傳統線性序列結構中存在的難以建立長距離、雙向依賴關系的問題,學習到質量更高的中間語言模型,再通過調優就能在文本生成、閱讀理解、文本分類、信息檢索、序列標注等多個任務上取得當前最為領先的準確率。
 
    拿機器閱讀理解任務來說,在SQuAD1.0數據集上,BERT和XLNet都已大幅超越人類的91.22(F1分),分別達到了93.16和95.08。在更加復雜的SQuAD2.0數據集上,XLNet也已經達到了89.13的F1。
 
    又如在2019年3月舉行的第十四屆NTCIR上,短文本情感對話任務(STC3)提出的要求是:中文回答不僅需要內容合理,語句流暢,而且需要情感合宜。例如,如果用戶說“我的貓昨天去世了”,如果機器人想表達悲傷的情感,那么最合適的回答可能是“這太悲傷了,很抱歉聽到”,但如果想表達安慰的情感,則應該說 “壞事永遠發生,我希望你會快樂很快“。對情感表達要求的增加,無疑增加了難度。這次比賽中,一覽群智和人民大學信息學院聯合組成的團隊獲得了冠軍。團隊就是使用了基于Transformer的改進網絡模型,以情感識別、情感領域對話子模型、集成學習等方法相結合,擊敗了十幾個國際上的強勁對手。類似的探索,讓AI在特定任務下的認知能力,朝著人類水平一步步發展。

    認知智能進入快車道
 
    自然語言處理雖然比計算機視覺和語音滯后幾年,但是我們看到自然語言處理已經進入快車道。近兩年來語言模型上的飛速進步,讓我們感受到之前制約自然語言處理和文本分析發展的主要難點,正在被更好的模型結構、更好的訓練和使用方法、更大的算力逐漸克服。為自然語言任務加入“常識”,也是另一個新興重要探索方向,這個方向則與知識圖譜技術緊密結合。一覽群智也正在這個方向上做出探索。
 
    我們也許正處于認知智能的黃金發展期。新技術的出現和逐步成熟,也使得更多的行業應用場景變得可能。一覽群智在行業中一直在探索認知智能的基礎技術發展和前沿行業應用,圍繞自然語言和文本類技術的變與不變,在這個過程中有著自己的思考和總結,并且通過智語這個核心技術產品,向行業給出自己的答案。
 
 
   “智語” 自然語言處理平臺
 
    就像BERT、GPT-2.0、XLNet在兩階段范式上的殊途同歸,一覽群智認為基礎語言模型在不同任務上可以存在一些不變性,但在不同場景中一定要做特殊語料與任務下的調優與適配。出于對文本信號特性的理解和自然語言處理技術發展階段的清醒認識,從很早開始,一覽群智構建認知智能核心產品智語平臺的思路,也是圍繞這種變與不變在展開。對于基礎、不變的部分,BERT、GPT-2.0、XLNet在發布不到72小時內,一覽群智便已構建了在一覽群智獨特語料下的最新語言模型,保證智語平臺中的基礎語言模型的最先進性。
 
 
    “智語” 自然語言處理平臺的智能流程
 
    但認知智能在金融、公安、媒體等場景中的變化部分給AI廠商帶來的挑戰非常明顯。一個媒體場景的10類新聞分類模型,無法去給另一個媒體的12類分類體系使用;通用語料下針對人地組織的命名實體抽取,無法抽取電商行業的產品名或是警情數據中的某些重要信息。一個算法往往在不同場景下要利用不同的標注語料去形成不同的模型。
 

    “智語” 自然語言處理平臺端到端流程方案
 
    為了解決數據標注難、封閉環境下模型訓練難、部署難等問題,一覽群智的智語平臺還提供了標注管理、智能標注加速、自然語言處理、文本模型訓練、一鍵部署等端到端功能,大幅提升團隊在應對不同場景時的效率和效果。例如智能標注加速功能,利用主動學習的先進技術,將訓練一個分類或者序列標注模型的標注量有效降低至原有的30%-50%,而保持模型性能基本不變;加上平臺高效能的標注管理,總體效率提升可達數倍。而傻瓜式的訓練和部署,使得非常初級的團隊成員通過短期培訓也能有效形成AI的生產力。通過智語這個核心基礎能力和場景化極大提升了一覽群智的AI賦能效率。
 
    回顧AI連接主義學派復興的十年,是一個算法、算力、應用相互促進不斷攀升的螺旋梯。在見證ImageNet圖像分類錯誤率從近30%一路降到近2%、見證AlphaGo從擊敗樊輝到李世石到柯潔之后,我們開始見證基于BERT/GPT-2.0/XLNet在閱讀理解任務超越人類。十年后再回顧,會發現今天之于自然語言處理,也許恰如2014年之于人臉識別。
 
    (一覽群智CTO  劉家?。?/div>
    作者簡介:
    劉家俊  一覽群智 CTO
    澳大利亞昆士蘭大學博士
    人工智能領域知名學者
    曾任IBM中國研究院研究員
    澳大利亞聯邦科學與工業研究組織博后研究員
    人工智能與數據方向頂級國際學術會議及期刊PAKDD、ACM MM、IEEE TKDE的程序委員、審稿人
 
    一覽群智簡介:
 
    一覽群智是國內領先的人工智能公司,以自然語言處理和知識圖譜等認知智能技術為基礎,為客戶提供一站式AI產品和行業解決方案。
 
    公司自主研發出智語、智慧、智圖、智策四大產品,滿足企業在超大規模多源異構情況下的數據治理融合、不同場景下的AI建模,和復雜決策分析需求;讓AI技術快速在客戶場景落地,打造客戶專屬的智能決策平臺
 
    當前,一覽群智的產品和解決方案已經成功應用于中共中央宣傳部、中國最高人民檢察院、中國建設銀行、中國郵政儲蓄銀行、中信銀行等近百家機構,極大的降低了AI應用的門檻,幫助客戶實現AI落地。
VR硬件評估more+
智能硬件more+
人妻无码久久久久久久久久久,猫咪WWW免费人成人入口,777米奇色狠狠俺去啦奇米77