OWT在企业远程智能视频服务场景中的应用
本文來(lái)自峰暢科技聯(lián)合創(chuàng)始人&CTO 段先德在LiveVideoStack2021上海站的演講內(nèi)容,以峰暢科技采用OWT開源媒體服務(wù)器在金融行業(yè)的應(yīng)用為實(shí)際案例,詳細(xì)解析如何用平臺(tái)化方法破解場(chǎng)景碎片化、定制化的難題,達(dá)到圖形化編輯工作流的方式支持業(yè)務(wù)流程創(chuàng)新的目的。
文 / 段先德
整理 / LiveVideoStack
大家好,非常感謝LiveVideoStack的邀請(qǐng)。很高興能在國(guó)內(nèi)音視頻領(lǐng)域的頂級(jí)技術(shù)社區(qū)分享我們?cè)趯?shí)時(shí)音視頻通信領(lǐng)域的產(chǎn)品化所做的事情。我是來(lái)自峰暢科技的段先德。本次分享的主題是OWT在企業(yè)遠(yuǎn)程智能視頻服務(wù)場(chǎng)景中的應(yīng)用。標(biāo)題的關(guān)鍵詞是OWT和企業(yè)遠(yuǎn)程智能視頻服務(wù)。OWT是英特爾主導(dǎo)的開源項(xiàng)目,全稱是Open WebRTC Toolkit,它提供一套基于WebRTC通信平臺(tái)和端上SDK,相當(dāng)于工具集。開發(fā)者或企業(yè)可以基于此平臺(tái)/工具集開發(fā)自己的垂直領(lǐng)域應(yīng)用。企業(yè)遠(yuǎn)程智能視頻服務(wù)是公司產(chǎn)品應(yīng)用領(lǐng)域,本人有幸在2014年至2019年期間深度參與OWT項(xiàng)目架構(gòu)、后端媒體服務(wù)器的框架設(shè)計(jì)、核心部件Coding。現(xiàn)如今,峰暢科技將OWT應(yīng)用在目標(biāo)客戶的B2C實(shí)時(shí)交互場(chǎng)景中。
?
我將通過(guò)以下四個(gè)部分作分享:企業(yè)遠(yuǎn)程視頻服務(wù)場(chǎng)景的RTC需求;OWT的設(shè)計(jì)原則與分寸;Zealcomm面對(duì)遠(yuǎn)程服務(wù)場(chǎng)景在OWT基礎(chǔ)上的解決方案;OWT其他業(yè)務(wù)場(chǎng)景落地的關(guān)注方面。
01
—
企業(yè)遠(yuǎn)程視頻服務(wù)場(chǎng)景的RTC需求
首先是企業(yè)遠(yuǎn)程服務(wù)對(duì)RTC的場(chǎng)景需求。企業(yè)與客戶之間有線下面對(duì)面與遠(yuǎn)程服務(wù),之前在沒(méi)有實(shí)時(shí)交互場(chǎng)景下,通過(guò)數(shù)據(jù)交互ABP或其他H5瀏覽方式做常規(guī)交互,一些實(shí)時(shí)交互需求場(chǎng)景通過(guò)熱線電話提供語(yǔ)音遠(yuǎn)程服務(wù)或通過(guò)外撥電話推銷、調(diào)查、回訪服務(wù),也就是從B端觸及到C端。
1.1 全渠道視頻接入
隨著技術(shù)平臺(tái)演進(jìn)和企業(yè)服務(wù)IT化需求和要求升級(jí),傳統(tǒng)電話實(shí)時(shí)交互服務(wù)渠道不夠,且服務(wù)不夠親和,在金融行業(yè)中不滿足存證/監(jiān)管需要。金融行業(yè)是目前遠(yuǎn)程視頻服務(wù)主要客戶群體。現(xiàn)如今企業(yè)提供客戶遠(yuǎn)程視頻服務(wù)一般都會(huì)要求接入的渠道全渠道可觸達(dá),例如通過(guò)網(wǎng)頁(yè)H5方式通過(guò)原生APP入口與企業(yè)服務(wù)端做交互。現(xiàn)如今微信是全民性渠道,所以企業(yè)上遠(yuǎn)程視頻服務(wù)需要覆蓋微信渠道,另外還要兼容傳統(tǒng)PSTN電話、SIP硬終端與后端呼叫中心提供的遠(yuǎn)程視頻服務(wù)。隨著2020年5G鋪開,有些客戶用5G中視頻VolTLE通道作為要求,比方說(shuō)以前用電話打110報(bào)警,描述半天事件與位置不清楚導(dǎo)致公共服務(wù)提供不及時(shí),現(xiàn)如今有相當(dāng)?shù)母采w面可支持5G VolTLE后,企業(yè)或政務(wù)端視頻能使受理端將語(yǔ)音呼叫變成視頻呼叫,以直接用手機(jī)攝像頭作警情報(bào)告。這是視頻服務(wù)新動(dòng)向。今年在種子客戶中,已有商用上線。
遠(yuǎn)程視頻服務(wù)全渠道接入需求,選擇視頻平臺(tái)要求大概率要支持WebRTC方式、支持傳統(tǒng)實(shí)時(shí)通信的系統(tǒng)。微信通道方面,做WebRTC平臺(tái),它從2020年IOS14.3推送后全平臺(tái)微信環(huán)境內(nèi)置瀏覽器可以打開WebRTC雙向?qū)崟r(shí)音視頻通信。我們有客戶在這一方面做了PUC驗(yàn)證。
1.2 服務(wù)智能化
企業(yè)另一個(gè)視頻服務(wù)要求是服務(wù)智能化。視頻服務(wù)與以前的電話服務(wù)不同,電話后話務(wù)員穿得懶散與否、工作場(chǎng)地、儀容儀表無(wú)要求;而視頻后,對(duì)業(yè)務(wù)代表有非常高的要求。如果客戶不滿意外表,將影響企業(yè)提供的評(píng)價(jià)。視頻服務(wù)交互流程例如銀行、保險(xiǎn)公司、運(yùn)營(yíng)商、政府部門柜面業(yè)務(wù)會(huì)有人作為企業(yè)或機(jī)構(gòu)業(yè)務(wù)代表進(jìn)行交互,實(shí)際上感興趣的不是這個(gè)人,真正感興趣的是服務(wù)流程。交互本質(zhì)是在于企業(yè)或機(jī)構(gòu)背后業(yè)務(wù)流程與數(shù)據(jù)。看到這層后,機(jī)器人提供人類信息可承載方式——音視頻交互,是最接近企業(yè)原始服務(wù)質(zhì)量與服務(wù)描述。
實(shí)際客戶要求不會(huì)那么深,只會(huì)想人工業(yè)務(wù)代表需要成本做培訓(xùn);培訓(xùn)質(zhì)量效果參差不齊,需要降低人力成本,提高投入效果,視頻服務(wù)傳達(dá)到C端用戶能夠是標(biāo)準(zhǔn)化質(zhì)量。另外客戶希望服務(wù)過(guò)程中產(chǎn)生不符合規(guī)范現(xiàn)象,通過(guò)最新AI手段將其進(jìn)行實(shí)時(shí)監(jiān)測(cè)當(dāng)場(chǎng)糾正。另外很多客戶特別是業(yè)務(wù)方希望呈現(xiàn)給客戶的是清新亮麗的企業(yè)形象、千人一面。以上就是促使我們思考如何將企業(yè)交互給用戶遠(yuǎn)程視頻服務(wù)智能化的原因。這需要RTC平臺(tái)、音視頻交互平臺(tái)能夠非常方便地與各種聽覺、視覺、NLP等AI能力服務(wù)對(duì)接。
1.3 業(yè)務(wù)平臺(tái)化
?
接下來(lái)是企業(yè)遠(yuǎn)程視頻服務(wù)典型需求,痛點(diǎn)是在以前系統(tǒng)建設(shè)思路時(shí),出一套業(yè)務(wù)場(chǎng)景,供應(yīng)商出一套系統(tǒng),過(guò)了幾十年后,會(huì)發(fā)現(xiàn)IT系統(tǒng)亂糟糟,到處都是各自獨(dú)立的煙囪。我們希望通過(guò)平臺(tái)化方式,可變更服務(wù)流程方式做業(yè)務(wù)流程的定制,把以前的系統(tǒng)固化業(yè)務(wù)流程變成可編輯的業(yè)務(wù)流程。需要使系統(tǒng)具體遠(yuǎn)程視頻服務(wù)的流程和內(nèi)容方便直接地由業(yè)務(wù)人員編排。
?
02
—
OWT的分寸
面對(duì)企業(yè)視頻服務(wù)的需求,在現(xiàn)如今開源的圈子中,需要支持WebRTC,且后端是非常開放結(jié)構(gòu),與現(xiàn)有后端AI服務(wù)對(duì)接、提供可編排業(yè)務(wù)流程,實(shí)際上可選框架不多。OWT是目前來(lái)說(shuō)可以提供較好Base Line,我們?cè)谄渥鳛榛A(chǔ)做一些事。
2.1? OWT的設(shè)計(jì)原則
接下來(lái)分享一下OWT的設(shè)計(jì)原則,這一部分在LVS2019時(shí)分享過(guò)。功能性部分可以直接看得到,做得東西可以描述出來(lái),一個(gè)系統(tǒng)的生命力更多是在非功能性部分,系統(tǒng)做成的樣子是從軟件架構(gòu)對(duì)于系統(tǒng)的期望,而不是功能部門和業(yè)務(wù)部門能夠提出要求的。OWT的設(shè)計(jì)原則主要有以下幾個(gè)方面:模塊化的運(yùn)行體系;強(qiáng)隔離;層次化的媒體棧。
原則一:
關(guān)于模塊化的運(yùn)行時(shí)體系,Modularization不是新鮮事物,是軟件開發(fā)工程化的較基礎(chǔ)的最佳實(shí)踐,越簡(jiǎn)單樸素的原則,在平時(shí)工作中越容易置若罔聞。OWT非常堅(jiān)持在畫框圖時(shí)、系統(tǒng)時(shí)是獨(dú)立部件。典型會(huì)將信令部件、媒體相關(guān)部件、呼叫控制部件等基礎(chǔ)平臺(tái)部件分得較清楚,特別是媒體接入部件非常分明得劃分出。
原則二:
關(guān)于強(qiáng)隔離,與第一原則一脈相承,在框圖上畫出獨(dú)立框,在運(yùn)行是獨(dú)立實(shí)體,即其存在與其他實(shí)體之間沒(méi)有內(nèi)存共享,也就是說(shuō)它的運(yùn)行位置是沒(méi)有關(guān)系的,即兩個(gè)交互實(shí)體在同一個(gè)CPU上或是兩個(gè)CPU上交互手段一樣。將操作系統(tǒng)進(jìn)程作為系統(tǒng)的細(xì)胞,所有邏輯上單元部件運(yùn)行時(shí)是獨(dú)立的。OWT中有音視頻的轉(zhuǎn)碼混音混流器,服務(wù)于一個(gè)混音器是個(gè)獨(dú)立進(jìn)程,針對(duì)Input Stream的一個(gè)轉(zhuǎn)碼器是獨(dú)立進(jìn)程,也就是說(shuō)每一個(gè)橙端運(yùn)行時(shí)的部件都是獨(dú)立操作系統(tǒng)進(jìn)程存在。另外系統(tǒng)設(shè)計(jì)了一套錯(cuò)誤檢測(cè)、錯(cuò)誤隔離、錯(cuò)誤恢復(fù)的機(jī)制,例如系統(tǒng)中視頻轉(zhuǎn)碼部件出現(xiàn)故障,回話控制器會(huì)檢測(cè)到并重新調(diào)度資源,將轉(zhuǎn)碼服務(wù)恢復(fù),將Pipe Line重新搭建,終端用戶不感知系統(tǒng)服務(wù)實(shí)體遷移、出錯(cuò)恢復(fù)。
原則三:
關(guān)于層次化的媒體棧OWT是實(shí)時(shí)音視頻的框架,非常關(guān)鍵的操控對(duì)象就是音視頻媒體,在OWT中分成三個(gè)層次的組織,從下往上依次是BO交互層,幀交互層,內(nèi)容控制層。所有媒體相關(guān)部件都會(huì)跨到幀交互層,媒體接入部件會(huì)跨到BO交互層,圖像增強(qiáng)、轉(zhuǎn)碼混音會(huì)到內(nèi)容交互層。這樣做的原因是使得所有流媒體在系統(tǒng)中有共同音視頻幀分裝格式。
2.2 OWT的UMSM
基于統(tǒng)一的音視頻幀分裝格式,OWT中定義了一套統(tǒng)一媒體擴(kuò)散模型Unified Medias Broad Model。上圖是示意圖,藍(lán)色部分是音視頻平臺(tái)的部件,黃色是外圍的端、媒體生成、消費(fèi)部件。各種格式流媒體進(jìn)入系統(tǒng)后被接入部件統(tǒng)一化,規(guī)整成統(tǒng)一音頻視頻幀格式定義,在系統(tǒng)中流轉(zhuǎn)媒體格式統(tǒng)一音頻幀。
?
03
—
Zealcomm的解決方案
針對(duì)上述企業(yè)遠(yuǎn)程視頻服務(wù)的需求,OWT是什么樣的系統(tǒng),Zealcomm峰暢科技基于這個(gè)系統(tǒng)是怎樣完成遠(yuǎn)程視頻服務(wù)的需求呢?
3.1 充分融合AI能力服務(wù)
首先看待平臺(tái)角度向前走一步。以前人工智能能力發(fā)展到可用之前,眾所周知,AI能力在過(guò)去3到4年急速發(fā)展,在2019年、2020年有能力服務(wù),例如NLP,實(shí)時(shí)視頻生成技術(shù)。隨著算力成長(zhǎng),可以走到工業(yè)界使用,體驗(yàn)可以接受。以前也有廠商借助互聯(lián)網(wǎng)音視頻實(shí)時(shí)通信平臺(tái),將平臺(tái)作為工具輔助企業(yè)遠(yuǎn)程視頻服務(wù)。根據(jù)前文描述可以看出把音視頻平臺(tái)作為工具輔助交互,服務(wù)流程數(shù)據(jù)是企業(yè)編程至業(yè)務(wù)員大腦中。現(xiàn)如今有些AI能力可以直接與客戶進(jìn)行音視頻媒介交互時(shí),可以用視頻方式驅(qū)動(dòng)場(chǎng)景體驗(yàn)。
3.2 “視頻原生”遠(yuǎn)程服務(wù)工作流平臺(tái)
?
直接將場(chǎng)景體驗(yàn)放置交互中是系統(tǒng)設(shè)計(jì)目標(biāo),提出了“視頻原生”,由視頻的原始信息承載方式提供人與機(jī)器的交互。企業(yè)遠(yuǎn)程視頻服務(wù)場(chǎng)景是怎么樣的技術(shù)棧呢?如上圖根據(jù)視頻人和人聊天,可見的是交互對(duì)象問(wèn)答。例如合同簽署時(shí),機(jī)器人推合同過(guò)來(lái)進(jìn)行手寫簽字,電子簽名疊加進(jìn)系統(tǒng),與柜面真人業(yè)務(wù)員辦理體驗(yàn)相同。在支持體驗(yàn)背后是具體業(yè)務(wù)場(chǎng)景服務(wù)流程,例如是貸款面審流程,有以下幾個(gè)步驟:提交身份證照片、人證比對(duì),條款確認(rèn)、社會(huì)關(guān)系背景核實(shí)等,具體場(chǎng)景建立在工作流平臺(tái)上,可提供一系列業(yè)務(wù)流程所需交互環(huán)節(jié)作為模板存在,在模板上拼裝業(yè)務(wù)流程。此平臺(tái)是通用平臺(tái),可在上面拼湊出無(wú)窮多的不同的業(yè)務(wù)流程。最底下是視頻信息流,它在平臺(tái)上有音視頻流控制層次。
3.3 架構(gòu)
?
上圖是系統(tǒng)架構(gòu)。針對(duì)企業(yè)遠(yuǎn)程視頻服務(wù)場(chǎng)景有訪客端,座席端(支持人工坐席,重點(diǎn)推機(jī)器人坐席),中間藍(lán)色部分是系統(tǒng)平臺(tái)主體,下面部分是以O(shè)WT為基礎(chǔ)打造的開放媒體平臺(tái),下面對(duì)接的是第三方AI媒體服務(wù)。上面的是與客戶業(yè)務(wù)流程系統(tǒng)的對(duì)接。
3.4 對(duì)OWT的擴(kuò)展
?
為了達(dá)到上述架構(gòu),要對(duì)OWT做擴(kuò)充,特別是對(duì)用戶已經(jīng)建設(shè)一部分基于傳統(tǒng)CT技術(shù)視頻通信平臺(tái),需要對(duì)OWT內(nèi)置SIP網(wǎng)關(guān)進(jìn)行增強(qiáng),要擴(kuò)展頭攜帶能力和非標(biāo)的業(yè)務(wù)流程信令支持,Recording Agent增強(qiáng),在錄制后馬上提供調(diào)令。另外增加一些部件,OWT提供統(tǒng)一媒體擴(kuò)散模型,在模型基礎(chǔ)上上只要符合媒體流轉(zhuǎn)的音視頻幀格式定義,可以擴(kuò)展任意媒體。還有進(jìn)行人臉識(shí)別、服務(wù)過(guò)程中實(shí)時(shí)截圖部件。另外很重要的點(diǎn)是參加bizbot會(huì)話控制的增強(qiáng)。
3.5 demo
?
上面播放的是前不久給客戶POC提供系統(tǒng)的演示。真實(shí)復(fù)雜的業(yè)務(wù)流程沒(méi)在其中,用戶終端是微信內(nèi)置瀏覽器,前半段與之視頻問(wèn)答是數(shù)字人,小窗是參與測(cè)試的同事,力求通過(guò)開放的媒體平臺(tái)將企業(yè)端流程數(shù)據(jù)對(duì)接到用戶的眼睛與耳朵。
04
—
OWT之于其他場(chǎng)景
最后介紹OWT在其他應(yīng)用場(chǎng)景落地時(shí)需要補(bǔ)足的點(diǎn)。
4.1 做私有部署的視頻會(huì)議類應(yīng)用
一是基于OWT做私有部署的視頻會(huì)議類應(yīng)用。所謂的視頻會(huì)議類是人與人之間交互為主,多方跨地域的形式。有些上市公司直接基于OWT做了產(chǎn)品化,之前提供過(guò)咨詢與幫助。這方面需要補(bǔ)齊的是在跨數(shù)據(jù)中心部署時(shí)對(duì)于擴(kuò)散模型需要中繼節(jié)點(diǎn),增加relay部件。針對(duì)多方通信,多端能力,視頻流消費(fèi)需求有自適應(yīng)訂閱切換。如果場(chǎng)景是大規(guī)模會(huì)話(一個(gè)會(huì)議中有10萬(wàn)或100萬(wàn)人)會(huì)話控制模塊需要做增強(qiáng),它是conference agent,運(yùn)營(yíng)狀態(tài)從處理邏輯剝離做分布式。會(huì)話模型要轉(zhuǎn)換成以stream為中心,其邏輯針對(duì)性明顯,針對(duì)傳統(tǒng)視頻會(huì)議場(chǎng)景。另外需要產(chǎn)品化就要會(huì)管邏輯、白板標(biāo)注、文件傳遞輔助性功能。
4.2? 強(qiáng)實(shí)時(shí)類應(yīng)用
?
二是聽到有些團(tuán)隊(duì)基于OWT做強(qiáng)實(shí)時(shí)類應(yīng)用,譬如多人在線游戲(云游戲)、遠(yuǎn)程遙控等場(chǎng)景對(duì)于端到端的延時(shí)極其苛刻,一般來(lái)說(shuō)需要大幾十毫秒確定的延時(shí),基于Cron不合適,Cron中音視頻播放端和采集端都保守通用,需要基于OWT Native SDK做更好的buffer優(yōu)化。另外要低延時(shí)必須要路由干預(yù),與終端直接交互的節(jié)點(diǎn)推到離用戶終端越近,要在接入節(jié)點(diǎn)和其他節(jié)點(diǎn)做傳輸保障。在集群內(nèi)部,需要擴(kuò)展統(tǒng)一媒體擴(kuò)散模型,支持rtp級(jí)擴(kuò)散。
4.3 在線教育/遠(yuǎn)程課堂類應(yīng)用
?
三是基于OWT做在線教育/遠(yuǎn)程課堂類應(yīng)用,以前提供過(guò)客戶支持,此場(chǎng)景下,如果是場(chǎng)景固定,可以直接在SDK對(duì)應(yīng),如果場(chǎng)景有變化,就需要將場(chǎng)景基本邏輯分出,特別對(duì)于教師終端SDK要做優(yōu)化,傳統(tǒng)教師端設(shè)備不支持WebRTC的外攝。此外還有自動(dòng)導(dǎo)播,服務(wù)端的學(xué)生標(biāo)簽分析、點(diǎn)名計(jì)算機(jī)視覺能力集成。
4.4 互動(dòng)直播/跨平臺(tái)直播類應(yīng)用
?
四是是前不久硅谷StreamYard被Hopin收購(gòu),它的場(chǎng)景非常簡(jiǎn)單,基于OWT的完成度有70-80%。需要做的擴(kuò)展是打磨推流媒體格式支持,OWT支持HLS但做得少,如果推流的話是會(huì)議加直播的形式,StreamYard多方場(chǎng)景下是pano,將pano場(chǎng)景推送出去直播,將多方通信mix,適用于所有端,保持一致。另外在直播場(chǎng)景有消息交互的增強(qiáng),需要與各個(gè)直播平臺(tái)做推流打通。
以上就是我的全部分享,謝謝。
LiveVideoStackCon2021北京站正在火熱報(bào)名中!
?詳情請(qǐng)掃描圖中的二維碼或點(diǎn)擊閱讀原文了解大會(huì)更多信息。
總結(jié)
以上是生活随笔為你收集整理的OWT在企业远程智能视频服务场景中的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: linux shell中环境变量$PS1
- 下一篇: 在马克思手稿中有一道趣味的数学问题:一共