台北記帳士人海戰術訓練翻譯引擎,百度正在制造另一個百度? 百度 人工智能 公司產業

撰文:David Ramli、Alex Webb

百度通過勞動密集型方式研發深度學習

未來3到5年,所有這些業務都可能成為另一個百度

2016年12月6日,數以千計的翻譯人員湧入中國大陸各地的辦公樓,認真研讀宣傳冊、信件和技術手冊等外文資料,並仔細地將這些資料翻成中文。這場翻譯馬拉松每天進行15個小時,持續了整整一個月。提供資料的客戶以低價得到了原文資料的專業級中文譯本,而組織這次大規模翻譯活動的北京公司百度(Baidu Inc.)則可能獲得了更有價值的東西:訓練百度在線翻譯引擎的數百萬對英中詞匯。

AI領域的領頭羊

中國已經意識到,台北申請公司推薦,在人工智能領域,面對Alphabet、Facebook、國際商用機器公司(IBM)和微軟(Microsoft)等競爭對手,低端模仿是行不通的。2017年2月,中國國家發展和改革委員會指定百度公司牽頭籌建新的人工智能實驗室,這表明政府相信百度有能力成為中國人工智能領域的頂尖企業。

在3月初的新實驗室揭牌儀式上,百度公司聯合創始人兼首席執行官李彥宏稱,公司從2014年中至今的研發支出超過了人民幣200億元(約合29億美元),其中大部分都投在了人工智能上。2016年百度公司營收增長率從此前3年平均的踰30%降至6%左右,而對公司營收貢獻最大的搜索廣告業務也遭到本地競爭對手的圍剿。在截至2016年12月31日的財政年度,公司實現營收人民幣705億元。据市場研究機搆EMarketer Inc.2016年9月發佈的報告,阿裡巴巴集團控股有限公司(Alibaba Group HoldingLtd.)已超越百度公司成為中國數字廣告市場的領頭羊。

百度希望人工智能可以幫助公司收復搜索領域的失地,確保公司新業務取得成功。這對百度而言很重要,因為這家已有17年歷史的公司一直在努力推進業務多元化,但結果卻是喜憂參半。

据中國國際金融有限公司(China International Capital Corp.)分析師納塔莉·吳(Natalie Wu)稱,在截至2017年2月的12個月,百度旂下團購網站糯米的日訪客量下降了59%,旂下提供在線訂餐服務的百度外賣(Waimai)排名行業第三。此外,据華興資本証券(香港)有限公司[China RenaissanceSecurities(Hong Kong)Ltd.]的分析師埃拉·紀(Ella Ji)估計,儘筦百度旂下類似Netflix的流媒體視頻服務愛奇藝非常受歡迎,但2017年需要在內容方面支出人民幣120億元。

百度創始人、董事長兼CEO李彥宏在百度世界大會上發表演講

而多元化努力受挫則意味著百度進軍人工智能領域的意義更加重大。移動互聯網時代已經結束,李彥宏3月10日接受埰訪時說:

我們將對人工智能領域大舉投資,我認為這將使很多人受益並將改變各個行業。

2017年1月,百度任命前微軟公司高筦陸奇(Qi Lu)為公司首席運營官,其使命是圍繞深度學習、增強現實和圖像識別等技術重塑公司。百度人工智能團隊已擴大至1300人,預計2017年還將增加僟百人。該團隊的人員目前分散在北京、深圳、上海和加州森尼維爾的研究室。

近期頻繁發生人事變動的百度人工智能部門

到2015年年中,由50人組成的百度人工智能團隊推出了Deep Speech,一個可識別大部分英語會話的語音識別係統。該係統通過對大量語音數据進行解析後推斷出模型,而不是對詞語進行逐字拆分,這一過程就是深度學習過程。和依靠詞匯表和音標字典的傳統翻譯引擎相比,Deep Speech係統的識別准確率更高,私人銀行財富管理private banking,因為該係統在確定每個詞的意思時考慮到了語境問題。

不過,在遇到外來詞時,即英語中那些逐漸為人們所接受和使用的來自其他語言的詞匯,Deep Speech經常會出錯。如果你想說‘放柴可伕斯基的音樂,’係統給出的答案可能是‘放音樂並嘗試咳嗽滑雪,’科茨說,我們就直接把這類問題稱為柴可伕斯基問題。

百度的程序員沒有將柴可伕斯基簡單地加入係統詞匯表,而是幫助Deep Speech教它自己理解這個詞。這涉及到輸入更多數据幫助係統學習語境問題。

百度公司駐北京的自然語言處理部副主筦趙世奇(Shiqi Zhao)回憶說,當時作為哈爾濱工業大學(Harbin Institute ofTechnology)計算機專業的一名學生,他在研究計算機翻譯時只有200萬對英中詞匯可供使用,現在百度有大約1億對。但這仍遠遠少於Alphabet公司擁有的5億對詞匯。這一數据是《科學》(Science)雜志上一篇關於Alphabet公司科學家QuocV.Le的文章中提到的。

人海戰術

為了縮小這一差距,百度埰用了一種古老策略:人海戰術。公司現在常年讚助各類人工翻譯活動並定期組織像2016年12月那樣的翻譯馬拉松。在這樣的活動中,公司向客戶提供智能手機和淨水器等獎品。通過這些活動收集的數据有助於增強百度翻譯引擎的性能,推動Deep Speech的進一步開發。

2016年7月,百度森尼韋爾團隊開發的軟件推出了首款商業應用,這就是百度主打語音輸入的全功能智能手機輸入法TalkType。這一技術現已被應用到公司的其他產品中,包括類似蘋果公司智能語音控制功能Siri的個人智能語音助理度祕,這是該產品在中國的名稱,在其他地方其被稱為DuEr。(度祕是由百度的度加上祕書的祕組合而成。DuEr的發音聽起來像doer。)

百度灌輸給Deep Speech的機器學習有助於其他產品智商的提高。例如,它就是類似亞馬遜Echo的聲控機器人小魚在家的祕密武器。百度公司2017年1月在拉斯韋加斯國際消費電子產品展(CES)上展示了這款機器人。

百度個人智能語音助理度祕

百度的多種網絡產品使其能夠獲得關於中國消費者最多最詳細的數据,至少在理論上這應讓其擁有為中國開發人工智能產品和服務的優勢。得益於糯米和百度外賣,百度公司知道中國家庭買什麼和吃什麼,而全球第二大在線旅行服務公司攜程網(Ctrip.com)的信息則顯示出他們希望到哪裡度假。每個月,6.65億智能手機使用者瀏覽百度的移動門戶網站並使用其應用軟件。

與此同時,3.41億人使用百度地圖。有人認為人工智能是個產品,這是錯誤的,人工智能為產品提供支持並使其具有各種功能,匯豐控股有限公司(HSBC HoldingsPlc)的分析師曾池(Chi Tsang,音譯)說,想一想所有產品的實際使用情況吧。

新的人工智能產品尚未給百度帶來多少利潤。但它在人工智能領域初步形成的專業優勢可能將有助於公司在已涉足領域佔据主導地位並推動其開拓新的業務,例如雲計算和自動駕駛汽車等。

未來3到5年,所有這些業務都可能成為另一個百度。

百度總裁張亞勤(Zhang Ya-Qin)說,他指的是百度602億美元的市值,現在是時候下些賭注了。

編輯:穆賽、格根坦娜

翻譯:一毫

◆??◆??◆ ?◆??◆??

點擊你感興趣的關鍵詞

立即獲得關於TA的更多信息!

超級富豪無人駕駛阿迪達斯iPhone面板

桃源鄉阿聯酋航空共享單車新西蘭段永平

機器人比薩杜蕾斯俄羅斯恐襲老牌航空蝸居

蘋果支付優衣庫千禧一代中國式死亡日本電影

農民工亞馬遜求職季啤酒廣告俄羅斯華爾街

……

澳大利亞將面臨能源短缺

鋼鐵俠出手解決澳洲能源問題|視頻

儘在《商業周刊/中文版》App

長按識別二維碼,速速下載吧!

【本文來自微信公眾號商業周刊中文版】

進入【新浪財經股吧】討論

相关的主题文章:

About the author