人工智能讓手機語音輸入法快速增長
大家都知道,在每個人每天高頻使用的手機應用清單中,有一個低調而重要的存在:手機輸入法。賽諾不久前發布的《2018上半年中國手機輸入法分析報告》顯示:2018年手機輸入法市場規模將突破9.8億,環比增長22.5%,其中活躍用戶占比超過54%,用戶規模和數量都保持持續增長。
這并不難理解,輸入法是目前人機交互最重要的入口之一。而經過二十余年發展,手機輸入法在“文字鍵入”這條單一路徑上,已幾乎抵達技術演化的盡頭——頗為欣喜的是,如今,在智能語音等AI技術的加持下,手機輸入法這個最接地氣的入口,正在擺脫文字鍵入的單一束縛,開拓新的發展路徑,甚至在一定程度上擔當著新技術“橋頭堡”的使命。
譬如百度8月1日公布的2018年第二季度未經審計的財務報告顯示,百度營收260億元人民幣(約合39.3億美元),同比增長32%,凈利潤64億元(約合9.67億美元),同比增長45%。其中AI對百度業務的驅動力顯著,除了DuerOS和Apollo,百度AI也為百度APP、信息流、手機輸入法等移動端業務帶來了高效增長,李彥宏表示,百度輸入法語音輸入請求量短短一年時間內成長到日均3.35億次。相比于去年3月百度AI技術平臺體系(AIG)成立時,日均語音請求量增長5倍。在我看來,這種迅猛上揚,一方面受益于百度語音識別自身體驗的日趨完善;另一方面則受益于語音輸入已渡過市場教育階段,正在處于大規模爆發的風口。
而通過百度輸入法的不斷迭代可以發現,作為一款具備入口意義的應用,手機輸入法早已不再是一個簡單的“插件”,而是AI時代一款需要不斷打磨用戶體驗的服務型產品。
效率至上
如你所知,在最新一版百度輸入法中,除了支持拼音、筆畫、五筆、手寫和智能英文等基礎功能,最關鍵的技術躍遷,是智能語音輸入和AR表情兩大全新功能的上線,這極大豐富了用戶的輸入體驗。
先說語音。
從諾基亞到iPhone,從功能機到智能機,整個移動時代,就是一部人機交互難度不斷下降,交互方式不斷豐富的歷史。而誠如“互聯網女皇”米克爾所言:在最近數十年,人機交互每隔十年就會發生一次重大創新,語音則是當下最高效的輸入方式。
在如今所有語音場景之中,大多數人最先接觸到的,就是手機輸入法的語音輸入功能。相較于手寫和拼音等傳統方式,語音輸入效率更高,交互方式更自然,無論是主動的技術嘗鮮者,還是快節奏生活下的被動選擇,這種巨大的便捷性,都讓輸入法從文字向語音的大規模遷徙(至少在不方便打字的情景下),成為不可逆的演化趨勢。
數據也證明這一點:《2018上半年中國手機輸入法分析報告》就顯示,在輸入方式選擇上,語音輸入占比已提升至41%,用戶習慣日趨養成;此外,更像是某種交叉印證,最近搜狗發布的第二季度財報顯示,其日均語音請求量也超3億次(頗值得玩味的是,作為一家“非專門”做輸入法的公司,百度輸入法官方公布的日均語音請求量是超過3.35億次,和搜狗不相上下)。
總之,一切都指向一點:語音正在成為更多人輸入方式的必選項,且他們一旦開始用上語音,產生的黏性往往非常高,屬于典型的“一旦用上就離不開”系列。
不過,語音輸入的順暢,必須拜深厚的技術功底所賜,倘若準確率不堪重用,反而會造成效率下降——所以說,“準”是語音輸入最基本的素養。
令人欣喜的是,依托“百度大腦”的進化,作為百度AI技術率先落地的產品之一,百度輸入法凝聚了百度深耕多年的語音、圖像、NLP和知識圖譜等AI能力——尤其是AI語音技術,業內皆知,目前識別率高達97%的百度語音曾入選MIT“全球十大突破技術”,并且在手機百度和百度地圖等產品中早已廣泛應用,而隨著DuerOS朋友圈的持續擴張,也會不斷“反哺”百度的語音技術,這種得天獨厚的技術和生態優勢,是其他公司不具備的,也勢必會夯實百度輸入法語音請求量的領先地位。
當然,在提高識別準確率方面,百度輸入法并未停止進化腳步,最近一次重大突破,就是其搭載了百度第二代深度尖峰技術(Deep Peak2)。“DeepPeak2模型”的全稱是基于LSTM和CTC的上下文無關音素組合建模,它最大的技術蛻變,就是將高頻出現的音素聯合在一起,形成一個音素組合體,然后將這個音素組合體視作一個基本建模單元。
這意味著,與在過往數十年業界常用的上下文相關建模方式相比,DeepPeak2能最大程度發揮神經網絡模型的參數優勢,大幅提升中英文,多種口音和多種風格(譬如朗讀,聊天,輕聲)混合輸入的穩定性和準確度,目前其相對正確率較行業領先水平提升20%。另外,難能可貴的一點是,不同于一些輸入法遇上“中英混輸”后瞬間變成“車禍現場”,DeepPeak2同時支持中英文混合建模,讓百度輸入法具備了非常強大的中英文混合識別能力。
事實上,此次百度輸入法的技術突破,并不令人意外。百度是中國最早通過深度學習技術在語音識別領域取得突破的公司之一,早在2012年就率先上線了基于DNN的語音識別模型。過去6年,百度語音一直沒有停止進化,幾乎每年都會上線新的語音識別技術——如今DeepPeak2的上線,亦是語音科技史上的一次巨大躍遷,要知道,之前國際上也曾有過類似建模方式,但卻沒法避免建模時出現的過擬合問題,而百度通過聲學模型學習和語言信息學習相分離的特殊訓練方法,將建模單元數目減少了10倍,從本質上解決過渡擬合的問題,極大提升了識別準確率,殊為不易。
而除了準確率上的不斷精益,百度輸入法在語音輸入功能上,也不斷產生驚喜。譬如,百度輸入法具備輕聲識別能力,無論會場還是課堂,都能降低語音輸入的尷尬;它還具備語音速記功能,在這一功能的“多人模式”場景下,聲紋識別技術可以自動區分發言人,大幅降低工作者后期處理的成本;除此之外,百度輸入法支持中文普通話,中文粵語,英語和日語等多語種識別;且能讓用戶通過語音完成語音撥號和語音搜索等功能,后者尤為重要,企業基因所致,百度輸入法擁有很強的搜索元素,你知道,聊天時突然出現搜索需求,是很常見的交叉應用場景,通過百度輸入法自帶的搜索功能,可免去切換應用帶來的時間折損。
總之不難發現,在效率維度,百度正不斷推陳出新,讓輸入法成為人們日常最值得仰仗的工具,通過不斷夯實用戶的語音輸入習慣,延續著移動時代人機交互難度不斷下降,交互方式不斷豐富的歷史脈絡。
打磨用戶體驗
如果說“效率至上”是一款輸入法的基本素養,那么“可玩性”——或者說愉悅感,則能進一步豐富用戶體驗的維度。而考慮到社交是手機輸入法應用最多的場景(數據顯示,社交類APP中輸入法占比高達74%),百度輸入法也一直在提升用戶在社交場景下的愉悅感。
舉個例子,百度輸入法中有70%是90后,其中60%的人經常玩“斗圖”。針對于此,百度手機輸入法開發了AR表情功能,基于百度多模態人臉識別系統(支持104點基礎模型加眼睛、嘴部、眉毛單例模型;全臉識別278點),能準確識別面部輪廓和表情,用戶可制作出只屬于自己的表情、感覺和動作,并直接通過輸入法搜索,語音輸入和鍵盤輸入時展示出來。且受益于AR表情功能識別速度快,表情文件小等特點,用戶可在聊天中輕松使用,刻畫出自己在虛擬世界中的獨特形象。
百度AR趣味表情
AR表情功能的上線也意味著,百度輸入法是首家同時支持2D、3D表情以及通過人臉控制虛擬形象制作表情。而我相信,在可預見的未來,AI和AR等新技術對輸入法產品的作用會越來越大,將會有更多新技術被添置到輸入法中。在百度的帶領下,作為新技術“橋頭堡”的輸入法,有可能進入一個更靈動的全感官輸入時代。
未來由現在筑造。不難發現,依托百度強大的AI基礎,無論是在“準”這個基本面上的不斷深耕,輸入功能的不斷完善,還是可玩性和愉悅感的不斷提升,都是百度在輸入領域全方位了解用戶需求,不斷打磨用戶體驗的體現。這種對用戶體驗的打磨,也讓昔日功能單一的手機輸入法,具備了“語音助手”,“效率工具”和“聊天伴侶”等多重身份,并在不同用戶手上,得到不同程度的釋放。
正如百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰所言:“AI的發展最終還是要回到‘服務用戶需求’的本質,這是我們每一位人工智能從業者都需要銘記在心的。利用好人工智能來服務好我們的用戶和客戶,以及更好地打磨AI能力來推動各行各業的效率提升,是每一位人工智能領域從業者的期望。”
作為你我最重要的工具伴侶,手機輸入法本身正在變得“復雜”,卻讓生活和工作變得更為簡單。在我看來,這才是技術的本分。