當前位置：首頁 >

【百度AI语音合成】会员到访门店语音提醒

發(fā)布時間：2024/3/26 55 豆豆

生活随笔收集整理的這篇文章主要介紹了【百度AI语音合成】会员到访门店语音提醒小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?每次會員到訪都需要。會員自主結(jié)賬或找導購才能被發(fā)現(xiàn)。或者需要一個人員站在門口，并且對會員都全部了解，才能對會員到訪進行更好服務的接待。

小帥為了免去這些操作呢。就想到了百度AI。語音合成。再結(jié)合第三方的人臉庫會員到訪推送。做了一個簡單的會員到訪語音提醒推送小工程。

下面我們就一起看一下整體流程吧~

實現(xiàn)步驟

?Step1:成為百度AI開放平臺的開發(fā)者

我們有賬號之后登錄，并且點擊此處(百度語音)創(chuàng)建一個應用，如下圖

然后就能看到創(chuàng)建完的應用和 APPID、API KEY 以及 Secret KEY了

Step2:準備數(shù)據(jù)

語音合成是將文本轉(zhuǎn)換為可以播放的音頻文件的服務，我們從大姚的訂單庫中找一段訂單信息的文本如下：

三分鐘前，由北京市順義區(qū)二經(jīng)路與二緯路交匯處北側(cè)，北京首都國際機場T3航站樓去往東城區(qū)北三環(huán)東路36號喜來登大酒店(北京金隅店)

Step3: 編寫一個語音合成示例程序

有 第一步 的 API KEY 以及 Secret KEY，以及 第二步 的數(shù)據(jù)，我們就可以寫一個示例代碼調(diào)用百度AI開放平臺的文字識別能力

準備開發(fā)環(huán)境

小帥選擇用 Java來快速搭建一個原型，關(guān)于如何安裝Java。可以參考百度經(jīng)驗哦～。百度AI有很完善的API文檔、和封裝調(diào)用更方便的工具包。接下來小帥就用Maven搭建工程環(huán)境

pom.xml配置如下：

<dependency><groupId>com.baidu.aip</groupId><artifactId>java-sdk</artifactId><version>4.12.0</version> </dependency>

編寫代碼

粘貼以下內(nèi)容，不要忘記替換你的 APPID APIKEY 以及 SECRETKEY 和 圖片文件

運行main方法即可

import com.baidu.aip.speech.AipSpeech; import com.baidu.aip.speech.TtsResponse; import com.baidu.aip.util.Util; import org.json.JSONObject;import java.util.HashMap;public class Sample {//第一步創(chuàng)建應用獲取的三個值private static String APPID = "你的 App ID";private static String APIKEY = "你的 Api Key";private static String SECRETKEY = "你的 Secret Key";public static void main(String[] args) {// 初始化一個AipSpeech AipSpeech client = new AipSpeech(APPID,APIKEY,SECRETKEY);// 調(diào)用接口第二步準備的圖片HashMap<String, Object> options = new HashMap<>();//合成的文本內(nèi)容String text = "三分鐘前，由北京市順義區(qū)二經(jīng)路與二緯路交匯處北側(cè)，北京首都國際機場T3航站樓去往東城區(qū)北三環(huán)東路36號喜來登大酒店(北京金隅店)";//發(fā)音人選擇/*** 度小宇=1，度小美=0，度逍遙=3，度丫丫=4* 度博文=106，度小童=110，度小萌=111，度米朵=103，度小嬌=5**/options.put("per","0");//語速，取值0-9，默認為5中語速options.put("spd", "3");TtsResponse res = client.synthesis(text , "zh", 1, options);byte[] data = res.getData();JSONObject res1 = res.getResult();if (data != null) {try {Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");} catch (IOException e) {e.printStackTrace();}}if (res1 != null) {System.out.println(res1.toString());}} }

保存接口返回語音byte[] 轉(zhuǎn)存為MP3格式文件。這里說明一下默認返回就是MP3格式的數(shù)據(jù)哦。如果想要其他格式

//3為mp3格式(默認)； //4為pcm-16k； //5為pcm-8k； //6為wav（內(nèi)容同pcm-16k）; //注意aue=4或者6是語音識別要求的格式，但是音頻內(nèi)容不是語音識別要求的自然人發(fā)音，所以識別效果會受影響。options.put("aue","3");

點擊訪問合成的示例MP3文件

語音合成單例加載。10次測試耗時如下(單位:ms(毫秒))。第一次需要加載一次AUTH。耗時多了一些。后續(xù)基本都持平在710ms以內(nèi)

發(fā)送請求到返回數(shù)據(jù)耗時:1493 發(fā)送請求到保存文件耗時:1495發(fā)送請求到返回數(shù)據(jù)耗時:611 發(fā)送請求到保存文件耗時:612發(fā)送請求到返回數(shù)據(jù)耗時:609 發(fā)送請求到保存文件耗時:610發(fā)送請求到返回數(shù)據(jù)耗時:473 發(fā)送請求到保存文件耗時:474發(fā)送請求到返回數(shù)據(jù)耗時:549 發(fā)送請求到保存文件耗時:550發(fā)送請求到返回數(shù)據(jù)耗時:673 發(fā)送請求到保存文件耗時:674發(fā)送請求到返回數(shù)據(jù)耗時:754 發(fā)送請求到保存文件耗時:755發(fā)送請求到返回數(shù)據(jù)耗時:676 發(fā)送請求到保存文件耗時:676發(fā)送請求到返回數(shù)據(jù)耗時:582 發(fā)送請求到保存文件耗時:582發(fā)送請求到返回數(shù)據(jù)耗時:662 發(fā)送請求到保存文件耗時:663發(fā)送請求到返回數(shù)據(jù)平均耗時:708.2ms 發(fā)送請求到保存文件平均耗時:709.1ms for (int i = 0; i < 10; i++) {// 調(diào)用接口String text = "三分鐘前，由北京市順義區(qū)二經(jīng)路與二緯路交匯處北側(cè)，北京首都國際機場T3航站樓去往東城區(qū)北三環(huán)東路36號喜來登大酒店(北京金隅店)";HashMap<String, Object> options = new HashMap<String, Object>();options.put("per", "0");options.put("spd", "3");long startTime = System.currentTimeMillis();TtsResponse res = client.synthesis(text, "zh", 1, options);byte[] data = res.getData();if (data != null) {long endTime = System.currentTimeMillis();System.out.println("發(fā)送請求到返回數(shù)據(jù)耗時:"+(endTime - startTime));try {Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");long saveEndTime = System.currentTimeMillis();System.out.println("發(fā)送請求到保存文件耗時:"+(saveEndTime - startTime));} catch (IOException e) {e.printStackTrace();}}JSONObject res1 = res.getResult();if (res1 != null) {System.out.println(res1.toString());}System.out.println();} 帶寬聯(lián)通100M

以上數(shù)據(jù)可以看出。平均耗時在0.7s上下。如果服務器配置賊6、帶寬也賊寬。應該耗時還會更低哦

接下來。咱們就拿語音合成的服務。來結(jié)合實際業(yè)務做一個小的功能哦~

會員到訪語音提醒搞起來

簡單看一下業(yè)務流程圖。主要看語音合成、語音提醒部分即可

人臉會員識別可以看百度AI的官方解決方案 https://ai.baidu.com/solution/faceidentify

本業(yè)務中人臉識別、攝像頭廠商暫時沒用百度AI。這一點我也很無奈。迫于公司要求呀。如果再來一次選擇。絕對強制提議選擇百度AI(怕太便宜而告終你懂得)

接口調(diào)用封裝，并符合業(yè)務系統(tǒng)使用

簡單說明一下：

案例中Java后端部分整體使用SpringBoot框架 JDK1.8

1.會員人臉照片信息上傳這一步小帥設(shè)計的是定時任務去執(zhí)行語音信息并進行合成操作。所以需要對Java的定時任務、任務調(diào)度有一定了解哦

2.定時任務就是對人臉會員信息讀取并進行會員到訪語音提示音頻文件合成

會員信息采集

會員到訪提示音發(fā)音類型默認度米多。也可以根據(jù)會員不同給不同的發(fā)音類型哦~

基礎(chǔ)音庫精品音庫

會員提示音類型修改

下拉選擇精品音庫或基礎(chǔ)音庫的具體類型即可

后端會員人臉信息處理

/*** 會員人臉信息添加* @param csFace* @return*/@AutoLog(value = "會員人臉信息添加")@ApiOperation(value="會員人臉信息添加", notes="會員人臉信息添加")@PostMapping(value = "/add")public Result<CsFace> add(@RequestBody CsFace csFace) {Result<CsFace> result = new Result<CsFace>();csFaceGroup group = new csFaceGroup();try {//這里存人臉信息到人臉庫就不演示了。人臉庫存入成功后業(yè)務系統(tǒng)再記錄csFaceService.save(csFace);//把會員人臉信息提交給JOB等待后續(xù)執(zhí)行。方便前端頁面交互不等待//人臉會員信息只是在一個JobFace類中增加一個List容器 public static List<CsFace> vipFaceMap=new ArrayList<CsFace>();JobFace.vipFaceMap.add(csFace);result.success("添加成功！");} catch (Exception e) {log.info(e.getMessage());result.error500("操作失敗-人臉服務存在異常");}return result;}

會員到訪定制提示音頻合成定時任務

import cn.hutool.core.date.DatePattern; import cn.hutool.core.date.DateUtil; import cn.netand.common.factory.BDFactory; import cn.netand.modules.csface.entity.CsFace; import cn.netand.modules.csface.service.ICsFaceService; import com.baidu.aip.speech.AipSpeech; import com.baidu.aip.speech.TtsResponse; import com.baidu.aip.util.Util; import lombok.extern.slf4j.Slf4j; import org.quartz.Job; import org.quartz.JobExecutionContext; import org.quartz.JobExecutionException; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.beans.factory.annotation.Value;import java.io.File; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.Date; import java.util.HashMap; import java.util.List;/*** @Description 人臉會員音頻生成* @author 小帥丶* @className VipVoiceJob * @Date 2019/11/20 22:11**/ @Slf4j public class VipVoiceJob implements Job {@Value(value = "${xiaoshuai.path.upload}")private String uploadpath;@Autowiredprivate GeneralDealBeanUtil generalDealBeanUtil;@Autowiredprivate ICsFaceService csFaceService;//獲取音頻合成的客戶端AipSpeech aipSpeech = BDFactory.getAipSpeech();@Value(value = "${xiaoshuai.domainVoice}")private String domainVoice;/*** 度小宇=1，度小美=0，度逍遙=3，度丫丫=4* 度博文=106，度小童=110，度小萌=111，度米朵=103，度小嬌=5**/private static final List<String> audioType = Arrays.asList("1","0","3","4","106","110","111","103","5");private static final String LANGUAGE_ZH = "zh";private static final Integer CTP = 1;private static final String AUDIO = ".mp3";//任務執(zhí)行詳情@Overridepublic void execute(JobExecutionContext jobExecutionContext) throws JobExecutionException {System.out.println("execute VipVoiceJob = " + DateUtil.format(new Date(), DatePattern.NORM_DATETIME_PATTERN));List<CsFace> vipFaceMap = JobFace.vipFaceMap;int vipFaceSize = vipFaceMap.size();if(vipFaceSize>0){vipFaceMap.forEach(csFace -> {//獲取會員信息try {generalAudio(csFace);csFace.setVoiceStatus(1);csFaceService.updateById(csFace);}catch (Exception e){System.out.println(e.getMessage());csFace.setVoiceStatus(2);csFaceService.updateById(csFace);}});JobFace.vipFaceMap.clear();}}/*** @Description 生成全部音庫音頻文件* @Author 小帥丶* @Date 2019/11/20 23:28* @param face 會員人臉數(shù)據(jù)* @return void**/public void generalAudio(CsFace face){String ctxPath = uploadpath;String bizPath = "audios";File file = new File(ctxPath + File.separator + bizPath + File.separator + face.getId());if (!file.exists()) {file.mkdirs();// 創(chuàng)建文件根目錄}long startTime = System.currentTimeMillis();audioType.forEach(audioTypeStr->{HashMap<String, Object> options = new HashMap<>();//合成的文本內(nèi)容String text = "XX門店提醒 "+face.getName()+" 會員到訪";//發(fā)音人選擇options.put("per",audioTypeStr);//語速，取值0-9，默認為5中語速options.put("spd", "3");String fileName = audioTypeStr+AUDIO;TtsResponse response = aipSpeech.synthesis(text,LANGUAGE_ZH,CTP,options);byte[] data = response.getData();if (data != null) {try {String savePath = file.getPath() + File.separator +fileName;String filePath = bizPath + File.separator + face.getId() + File.separator + fileName;if(null!=face.getVoiceType()&&face.getVoiceType().equals(Integer.parseInt(audioTypeStr))){filePath = filePath.replace("\\", "/");face.setVoicePath(filePath);face.setVoiceUrl(domainVoice+filePath);}Util.writeBytesToFileSystem(data, savePath);} catch (Exception e) {System.out.println(e.getMessage());}}});long endTime = System.currentTimeMillis();System.out.println("總耗時 = " + (endTime - startTime) + "ms");} }

添加一條定時任務

這里是5秒執(zhí)行一次。其實可以根據(jù)自我需求來定義。定時任務形式也不是必須。

會員音頻提示文件生成

數(shù)字代表的是發(fā)音類型。每添加一個會員。則會生成所有發(fā)音類型的音頻文件哦。方便后續(xù)給每個到訪會員給定不同聲音的提醒

會員到訪APP推送

非百度AI人臉會員解決方案哦~ 不要問為什么不用百度AI的。上面已經(jīng)給出說明了。

1.攝像頭抓怕推送到人臉庫系統(tǒng)

2.人臉庫系統(tǒng)對比并推送結(jié)果到內(nèi)部業(yè)務系統(tǒng)

3.內(nèi)部業(yè)務系統(tǒng)|人臉庫系統(tǒng)推送給APP(小帥使用前者)

下圖是一個gif。會演示app收到推送彈窗并播放語音提醒。

帶聲音訪問這里 https://mp.weixin.qq.com/s/qL57AxdS4r5zlDzM57z2CQ

總結(jié)

以上是生活随笔為你收集整理的【百度AI语音合成】会员到访门店语音提醒的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ANNOVAR gene-based a
下一篇： RAID合并两块固态硬盘大坑：配置