當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

一线｜对话谷歌产品经理：20%自由时间法则可以促进内部创新

發(fā)布時間：2023/11/21 综合教程 63 生活家

生活随笔收集整理的這篇文章主要介紹了一线｜对话谷歌产品经理：20%自由时间法则可以促进内部创新小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

　　騰訊《一線》作者韓依民

　　世界衛(wèi)生組織估計目前全球有 4.66 億人患耳聾或聽力障礙，這個群體有多大？來自印度孟買的谷歌 AI Research Group 的產(chǎn)品經(jīng)理 Sagar Salva 這樣形容：如果把這個數(shù)字當成是一個國家的人口的話，這個“國家”就是世界人口第三大國了。

　　今年 2 月底，谷歌宣布推出 Live Transcribe，一款旨在幫助聽力障礙人士溝通并且免費的字幕自動生成安卓服務，Sagar Salva 正是負責這一產(chǎn)品的產(chǎn)品經(jīng)理。在近期的一次媒體溝通中，Sagar Salva 向騰訊《一線》介紹了研發(fā)并推出 Live Transcribe 服務背后的思考。

　　根據(jù)谷歌方面提供的信息，Live Transcribe 目前支持 70 多種語言，覆蓋了世界上 80% 的人群；它以接近實時的速度轉(zhuǎn)錄一對一的對話，延遲低于 200 毫秒；這一服務能夠很好地結合上下文，對于發(fā)音相似或相同的字詞進行合理選擇，避免產(chǎn)生誤解；針對一些家庭同時講兩種語言的情況，Live Transcribe App 里設置了在兩種語言間進行快速切換的按鍵。Live Transcribe 現(xiàn)已在 Play 商店中分階段推出，且所有 Pixel 3 設備均預裝此功能的最新版本。用戶可以通過 “無障礙設置” 啟用 Live Transcribe。

　　Sagar Salva 介紹，工程師們?yōu)?Live Transcribe 設計了兩種不同類型的神經(jīng)網(wǎng)絡支持著該服務的正常運轉(zhuǎn)。第一種是在設備上運行的神經(jīng)網(wǎng)絡，它主要做聲音分類的工作，例如區(qū)分嬰兒的哭聲或玻璃破碎的聲音，它會把這些聲音在整個實時轉(zhuǎn)錄過程中，快速地進行分類和辨析。第二個神經(jīng)網(wǎng)絡模型在云端運行，這一規(guī)模更大的神經(jīng)網(wǎng)絡模型主要完成語音轉(zhuǎn)錄成文字的工作。

　　選擇這樣的技術架構搭建服務，主要出于讓更多人能夠接觸到這一服務的目的。Sagar Salva 認為，云端神經(jīng)網(wǎng)絡的支持使得這款產(chǎn)品即使在比較低配的手機上也能運行，某種程度上可以更好地擴大這款 APP 覆蓋人群的范圍。

　　“這也就意味著我們的 Live Transcribe 實時轉(zhuǎn)錄的這個 App，可以在全球 20 萬余臺安卓設備上運行。”

　　技術細節(jié)上，具體而言，云端模型分為三個部分，第一個部分是聲音模型，也成為聲學模型，主要是辨別一個單詞中的不同音節(jié)；第二個模型是發(fā)音的模型，把第一個模型辨別出來的音節(jié)組成實際的單詞；第三個模型是語言模型，即根據(jù)識別出的單詞增加適當?shù)臉它c符號和停頓，這類語言方面的一些意義。

云端模型三個部分示意圖

　　設備端的模型為聲音分類的識別模型。Sagar Salva 介紹，其所在的小組兩年前把 YouTube 上大量語音的數(shù)據(jù)做了開源，也就是在社區(qū)中的任何一位開發(fā)員，都可以針對這些音頻的文件，做自己的開發(fā)。

　　開發(fā) Live Transcribe 的過程中，Sagar Salva 和他的同事們主要面臨三個挑戰(zhàn)：一是什么終端是最適合搭載這一服務的；二是實時顯示的字幕是否要顯示轉(zhuǎn)錄的置信度（即轉(zhuǎn)錄出的語言的準確度）；三是如何處理環(huán)境噪音的問題。

　　針對第一個問題，綜合考慮多種因素，智能手機成為最終選擇，在 Sagar Salva 看來，“考慮到目前全球已經(jīng)有 20 億人在使用安卓的手機，我們認為做這樣的一種硬件平臺的選擇，其實對于全球而言都是可以說價格成本最低廉的一種選擇了。”

　　從體驗效果來看，由于認為顯示置信度信息會干擾用戶，最終 Live Transcribe 選擇不體現(xiàn)置信度。

　　對于環(huán)境噪音的問題，事實上，語音識別一直面臨著一個名為“雞尾酒會”的問題，即當談話對象很多、環(huán)境聲音嘈雜時，如何辨識我的談話對象。針對這一問題，Sagar Salva 及其團隊利用機器學習開發(fā)了一款語音識別技術，最終的實現(xiàn)效果是在 Live Transcribe 呈現(xiàn)一個實心圓點，圓點的不同狀態(tài)可以提示聽障人士其當下所處環(huán)境的噪音大小，可提示其選擇轉(zhuǎn)移到更加安靜的地方進行談話。

　　值得注意的是，谷歌有一個著名的 20% 規(guī)則：鼓勵員工利用 20% 的時間用于創(chuàng)新。在 Sagar Salva 看來，Live Transcribe 的誕生正是得益于這一規(guī)則。

　　Sagar Salva 向騰訊《一線》透露，Live Transcribe 第一個原型產(chǎn)品就是屬于 20% 創(chuàng)新項目的，但是開始不久他們立刻意識到，這其實是一個非常切實的項目。

　　“因為在谷歌我們也有一些聾人的員工，當他們拿到這個產(chǎn)品的時候，他們幾乎每天無時無地不在使用，所以最終我們其實是把它作為了一個實際的項目。也就是說在這個項目作為創(chuàng)新項目啟動之后一個月，我們就實際上把這個項目固定下來了，建立了相應的產(chǎn)品開發(fā)團隊。其實確實這種 20% 的項目，能夠讓谷歌內(nèi)部快速把一些大膽的創(chuàng)新的點子快速做出原型產(chǎn)品，甚至做出非常有創(chuàng)新意義的產(chǎn)品。”

總結

以上是生活随笔為你收集整理的一线｜对话谷歌产品经理：20%自由时间法则可以促进内部创新的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。