語音交互是機器人用來表達的出口,大數據是機器人用來更加準確判!
金融行業是大數據與人工智能落地最具潛力的行業之一。金融行業是數據密集型行業,金融數據具有更高的實時性、安全性和穩定性的要求,結構化數據占比高,應用場景廣泛。但與此同時,金融行業還有賴于利用第三方數據來為客戶提供更好的服務,自身業務特點也對金融數據的數據安全和個人隱私保護帶來了極大的困難,數據孤島現象嚴重,這也是為何聯邦學習首先在微眾銀行這樣的創新金融企業落地和開花結果的原因。
隨著深度學習神經網絡的提出、算法改善和算力的提升、以及大數據的廣泛應用,人工智能迎來了一波新的高峰。2016 年的「人機大戰」AlphaGo 戰勝圍棋世界冠軍李世石,不僅展示了以大數據驅動的人工智能的巨大潛力,也讓人們更加期待一個人工智能在各行各業中得以實現的新時代的到來。
然而理想很豐滿,現實很骨感——在實際應用中,大多數應用領域均存在數據有限且質量較差的問題,在某些專業性很強的細分領域(如醫療診斷)更是難以獲得足以支撐人工智能技術實現的標注數據。同時在不同數據源之間存在難以打破的壁壘,「大數據」往往只是越來越多的「數據孤島」的總稱。
語言建模成功是有原因的!它是一項非常困難的工作,為了有機會解決這個難題,模型需要學習語法,語義以及某些世界常識。給定足夠的數據,大量參數和足夠的計算能力,模型就可以有不錯的學習成果。根據過往的實驗來看,語言建模比翻譯或自動編碼等其它預訓練工作更有效。
最近對人類語言的預測率失真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明,人類語言和語言建模都具有無窮高的統計復雜性,但語言建模可以在較低層次上模仿逼近人類語言。這一觀察結果有兩個啟示:1)我們可以用相對較小的模型以獲得較為精準的結果;2)我們的模型有很大的拓展潛力。對于這兩種啟示,我們都有充足證據,我們可以在下一節中看到。
簡單的做法可以是在預訓練的模型之上添加一個或多個線性層,通常是在 Bert 基礎上增加。或者我們也可以使用模型輸出作為另一個模型的輸入。當目標任務需要預訓練的嵌入有一些交互作用但目前的預訓練模型執行不了時,這通常是有幫助的,例如以 BERT 為預訓練模型但需要詞匯表征或建立跨句子關系模型。
我們希望這樣做的原因之一可能是為了適應結構不同的設定目標,例如一個具有多個輸入序列的任務。在這種情況下,我們可以使用預訓練的模型盡可能初始化結構不同的設定模型。我們還可以應用于特定項目的修改,例如添加、跳過或連接或警示。最后,修改目標任務的參數可以通過在預訓練的模型層之間添加瓶頸模塊 (適配器)來減少需要精細調整的參數數量。
同時隨著大數據的發展,重視數據隱私和安全已經成為一種世界性的趨勢,而歐盟「數據隱私保護條例」(General Data Protection RegulaTIon,GDPR)等一系列條例的出臺更是加劇了數據獲取的難度,這也給人工智能的落地應用帶來了前所未有的挑戰。