日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

一线|对话谷歌产品经理:20%自由时间法则可以促进内部创新

發(fā)布時間:2023/11/21 综合教程 63 生活家
生活随笔 收集整理的這篇文章主要介紹了 一线|对话谷歌产品经理:20%自由时间法则可以促进内部创新 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  騰訊《一線》作者韓依民

  世界衛(wèi)生組織估計目前全球有 4.66 億人患耳聾或聽力障礙,這個群體有多大?來自印度孟買的谷歌 AI Research Group 的產(chǎn)品經(jīng)理 Sagar Salva 這樣形容:如果把這個數(shù)字當成是一個國家的人口的話,這個“國家”就是世界人口第三大國了。

  今年 2 月底,谷歌宣布推出 Live Transcribe,一款旨在幫助聽力障礙人士溝通并且免費的字幕自動生成安卓服務,Sagar Salva 正是負責這一產(chǎn)品的產(chǎn)品經(jīng)理。在近期的一次媒體溝通中,Sagar Salva 向騰訊《一線》介紹了研發(fā)并推出 Live Transcribe 服務背后的思考。

  根據(jù)谷歌方面提供的信息,Live Transcribe 目前支持 70 多種語言,覆蓋了世界上 80% 的人群;它以接近實時的速度轉(zhuǎn)錄一對一的對話,延遲低于 200 毫秒;這一服務能夠很好地結合上下文,對于發(fā)音相似或相同的字詞進行合理選擇,避免產(chǎn)生誤解;針對一些家庭同時講兩種語言的情況,Live Transcribe App 里設置了在兩種語言間進行快速切換的按鍵。Live Transcribe 現(xiàn)已在 Play 商店中分階段推出,且所有 Pixel 3 設備均預裝此功能的最新版本。用戶可以通過 “無障礙設置” 啟用 Live Transcribe。

  Sagar Salva 介紹,工程師們?yōu)?Live Transcribe 設計了兩種不同類型的神經(jīng)網(wǎng)絡支持著該服務的正常運轉(zhuǎn)。第一種是在設備上運行的神經(jīng)網(wǎng)絡,它主要做聲音分類的工作,例如區(qū)分嬰兒的哭聲或玻璃破碎的聲音,它會把這些聲音在整個實時轉(zhuǎn)錄過程中,快速地進行分類和辨析。第二個神經(jīng)網(wǎng)絡模型在云端運行,這一規(guī)模更大的神經(jīng)網(wǎng)絡模型主要完成語音轉(zhuǎn)錄成文字的工作。

  選擇這樣的技術架構搭建服務,主要出于讓更多人能夠接觸到這一服務的目的。Sagar Salva 認為,云端神經(jīng)網(wǎng)絡的支持使得這款產(chǎn)品即使在比較低配的手機上也能運行,某種程度上可以更好地擴大這款 APP 覆蓋人群的范圍。

  “這也就意味著我們的 Live Transcribe 實時轉(zhuǎn)錄的這個 App,可以在全球 20 萬余臺安卓設備上運行。”

  技術細節(jié)上,具體而言,云端模型分為三個部分,第一個部分是聲音模型,也成為聲學模型,主要是辨別一個單詞中的不同音節(jié);第二個模型是發(fā)音的模型,把第一個模型辨別出來的音節(jié)組成實際的單詞;第三個模型是語言模型,即根據(jù)識別出的單詞增加適當?shù)臉它c符號和停頓,這類語言方面的一些意義。

云端模型三個部分示意圖

  設備端的模型為聲音分類的識別模型。Sagar Salva 介紹,其所在的小組兩年前把 YouTube 上大量語音的數(shù)據(jù)做了開源,也就是在社區(qū)中的任何一位開發(fā)員,都可以針對這些音頻的文件,做自己的開發(fā)。

  開發(fā) Live Transcribe 的過程中,Sagar Salva 和他的同事們主要面臨三個挑戰(zhàn):一是什么終端是最適合搭載這一服務的;二是實時顯示的字幕是否要顯示轉(zhuǎn)錄的置信度(即轉(zhuǎn)錄出的語言的準確度);三是如何處理環(huán)境噪音的問題。

  針對第一個問題,綜合考慮多種因素,智能手機成為最終選擇,在 Sagar Salva 看來,“考慮到目前全球已經(jīng)有 20 億人在使用安卓的手機,我們認為做這樣的一種硬件平臺的選擇,其實對于全球而言都是可以說價格成本最低廉的一種選擇了。”

  從體驗效果來看,由于認為顯示置信度信息會干擾用戶,最終 Live Transcribe 選擇不體現(xiàn)置信度。

  對于環(huán)境噪音的問題,事實上,語音識別一直面臨著一個名為“雞尾酒會”的問題,即當談話對象很多、環(huán)境聲音嘈雜時,如何辨識我的談話對象。針對這一問題,Sagar Salva 及其團隊利用機器學習開發(fā)了一款語音識別技術,最終的實現(xiàn)效果是在 Live Transcribe 呈現(xiàn)一個實心圓點,圓點的不同狀態(tài)可以提示聽障人士其當下所處環(huán)境的噪音大小,可提示其選擇轉(zhuǎn)移到更加安靜的地方進行談話。

  值得注意的是,谷歌有一個著名的 20% 規(guī)則:鼓勵員工利用 20% 的時間用于創(chuàng)新。在 Sagar Salva 看來,Live Transcribe 的誕生正是得益于這一規(guī)則。

  Sagar Salva 向騰訊《一線》透露,Live Transcribe 第一個原型產(chǎn)品就是屬于 20% 創(chuàng)新項目的,但是開始不久他們立刻意識到,這其實是一個非常切實的項目。

  “因為在谷歌我們也有一些聾人的員工,當他們拿到這個產(chǎn)品的時候,他們幾乎每天無時無地不在使用,所以最終我們其實是把它作為了一個實際的項目。也就是說在這個項目作為創(chuàng)新項目啟動之后一個月,我們就實際上把這個項目固定下來了,建立了相應的產(chǎn)品開發(fā)團隊。其實確實這種 20% 的項目,能夠讓谷歌內(nèi)部快速把一些大膽的創(chuàng)新的點子快速做出原型產(chǎn)品,甚至做出非常有創(chuàng)新意義的產(chǎn)品。”

總結

以上是生活随笔為你收集整理的一线|对话谷歌产品经理:20%自由时间法则可以促进内部创新的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。