在利用深度學習進行算法訓練時,數據在算法模型迭代的過程中并不會產生理想化的“網絡效應”,要避免數據、計算等資源成為成本中心,自動化的算法生成和數據標注可能是最高效的解決辦法。作為中國人工智能領軍企業,曠視似乎已經在深度學習等底層技術上找到問題最優解,這對其他人工智能企業有著重要的借鑒意義。
圖:曠視以Brain++深度學習框架解決數據網絡效應失效帶來的成本問題
通俗來講,“網絡效應”就是當一個產品使用的人越多,它的價值便越大,例如社交軟件。放到AI的場景中,數據的“網絡效應”體現在當數據量越多時,訓練出來的AI算法質量將越高,識別效果越好或準確率越高,最后投入到實際應用中產生的商業價值就越大。那么當越來越多場景使用高質量算法的時候,數據集的獲取成本分攤下來就會越來越低。
但數據網絡效應放在AI場景的實際效果并非如此。相關資料顯示,盡管大部分條件下數據的確具有網絡效應,通過數據訓練生產算法能夠將準確率提高到50%甚至更高,但再向上提升則十分困難。因此,當AI公司剛進入新場景時需要至少得到一套最小價值數據源(minimum viable corpus)進行訓練,找到滿足基本場景的算法組合,然后再收集盡可能多的極端案例進行持續迭代。
但是如此一來就會造成兩個問題:數據獲取成本將隨著算法升級而越來越高,且數據很可能會過時,老舊的數據需要及時被剔除或重新標注。同時,由于越往后算法迭代的耗時越長,服務器成本與人工干預輸出處理成本將有所增長。那么,要如何解決“數據網絡效應”在AI中逐漸失效并隨之引發的各類成本問題呢?對此,曠視給出的答案是人工智能算法平臺Brain++和人工智能數據管理平臺Data++。
Brain++是曠視自研的一套端到端的AI算法平臺,采用了AutoML技術,使曠視構建出一條不斷自我改進、不斷變得更加自動化的半自動的算法開發生產線。基于Brain++,曠視就能夠針對不同垂直領域的碎片化需求定制豐富且不斷增長的算法組合,包括很多長尾需求,并且能以更少的人力和更短的時間開發出各種新算法,能夠有效避免數據網絡效應失效引發的各類成本問題。
曠視Data++則能夠有效管理并安全儲存曠視用作算法訓練的數據,允許多個研究人員同時訪問同一套數據進行訓練,并支持半自動數據處理及標注。在算法訓練中,Data++也從根本上降低了帶寬及人工標注成本。也因此,曠視在2019年成功發布了全球最大物體檢測數據集Objects365。從數據質量、體量上來看,都遠遠超過現有的ImageNet、COCO數據集。要知道內生的數據集覆蓋范圍越全、質量越高,企業外購的需求才會越少,成本也才更可控。
人工智能從上個世紀60年代就開始起步,但最近幾年才真正迎來發展高潮。我國2019年人工智能產業規模達到105.5億美元,預計到2022年產業規模將接近300億美元。但是具體來看,人工智能近年來突飛猛進主要有兩方面因素。一個是因為積累了大量的數據。另外一個是由于這些算法的進步,使得這些算法可以在這些數據里學習到越來越多的知識,所以實際上總結起來就是深度學習技術把人工智能推向了一個新的高潮。因此,曠視自研人工智能算法平臺Brain++,并計劃將于今年3月底對其核心深度學習框架 MegEngine進行開源,進一步解決行業成本控制問題,加速人工智能落地,推動我國經濟高質量發展。