當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

微软的TTS

發布時間：2023/12/20 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了微软的TTS 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄(?)[-]

一概述

二如何配置

三如何使用

一、概述

? ? ? ? 項目中需要將數據庫中讀出的文本記錄通過電話播放給用戶，這就需要將文本轉換為語音，即所謂的TTS（Text To Speech）。目前TTS技術已相對比較成熟，TTS引擎也比較多，比較有名的有Microsoft Speech SDK 和IBM的ViaVoice還有開源的Festival等。本文僅對微軟的TTS進行討論。
? ? ? ?軟件中的語音技術主要包括兩方面的內容，一個是語音識別(speech recognition) ，另外一個是語音合成(speech synthesis)，也即是文本語音轉換系統(TTS)。TTS系統使用合成語音合成文本字符串和文件到聲音音頻流。而語音識別系統則是轉換人類的聲音語音流到可讀的文本字符串或者文件。這兩個工作，都是通過各種語音引擎來完成的。微軟所提供的SAPI (全稱The Microsoft Speech API)，正是在應用程序和語音引擎之間提供一個高級別的接口，它實現了所有必需的對各種語音引擎的實時的控制和管理等低級別的細節。語音引擎通過DDI層(設備驅動接口)和SAPI進行交互，應用程序通過API層和SAPI通信。通過使用這些API，我們可以快速開發在語音識別或語音合成方面應用程序。SAPI 應用程序編程接口(API)明顯的減少了構建一個使用語音識別和文本語音轉換的應用程序所需要的高層代碼，使語音技術更加容易使用并且更加擴大了應用的范圍。雖然現在SAPI不是業界標準，但是應用非常廣泛。
　　 SAPI包括以下組件對象(接口)：
　　(1)Voice Commands API。對應用程序進行控制，一般用于語音識別系統中。識別某個命令后，會調用相關接口是應用程序完成對應的功能。如果程序想實現語音控制，必須使用此組對象。
　　(2)Voice Dictation API。聽寫輸入，即語音識別接口。
　　(3)Voice Text API。完成從文字到語音的轉換，即語音合成。
　　(4)Voice Telephone API。語音識別和語音合成綜合運用到電話系統之上，利用此接口可以建立一個電話應答系統，甚至可以通過電話控制計算機。（未見到相關資料）
　　(5)Audio Objects API。封裝了計算機發音系統。
　　其中Voice Text API，就是微軟TTS引擎的接口，通過它我們可以很容易地建立功能強大的文本語音程序。

二、如何配置

? ? ? 首先要添加SAPI.DLL文件的引用，如果安裝的VS 2010則會自帶有該com 組件。在C#程序中右鍵點擊引用，然后在COM組件里找到Microsoft Speech Object Library 5.4。我們可以從路徑中看到，其實它就是SAPI.DLL。然后在程序中加入：using SpeechLib;。然后我們就可以進行編程了。
?
? ? ? ?如果你沒有該DLL，則需要去微軟的官網下載 Speech SDK安裝（免費的），需要安裝程序的有Speech SDK 5.1（68M）和5.1 Language Pack （81.5M）。網上經常會說添加DotNetSpeech.dll，而不是SAPI.DLL引用，其實前者是用Tlbimp.exe工具將該sapi.dll轉換成.net平臺下的Assembly---DotNetSpeech.dll，兩者的本質是一樣的。

注：如果你使用的是C++工程項目（VS 2010），則需要對項目屬性進行配置：
1.在項目屬性頁->配置屬性->c/c++c->常規，在附加包含目錄中，添加你的SAPI的include目錄，例如：C:\Program Files\Microsoft Speech SDK 5.1\Include
2..在項目屬性頁->配置屬性->連接器->輸入，在附加依賴項中，添加你的SAPI.lib庫的路徑，例如：C:\Program Files\Microsoft Speech SDK 5.1\Lib\i386\sapi.lib
3.在程序中添加引用：
#include <sapi.h>
#pragma comment(lib,"sapi.lib");

然后就可以進行編程了。C++的使用方法可以參考博客：http://www.cnblogs.com/eping/archive/2010/05/23/1742201.html，也可以在網上搜。

三、如何使用

? ? ??? SAPI的TTS都是通過SpVoice對象來完成的。SpVoice類是支持語音合成(TTS)的核心類。通過SpVoice對象調用TTS引擎，從而實現朗讀功能。?

? ? ? SpVoice類有以下主要屬性：
　　? Voice： ? 表示發音類型，相當于進行朗讀的人，通常我們可以通過安裝相應的語音引擎來增加相應的語音。
　　? Rate： ? ? 語音朗讀速度，取值范圍為-10到+10。數值越大，速度越快。
　　? Volume：音量，取值范圍為0到100。數值越大，音量越大。
　 SpVoice有以下主要方法：
　　? Speak()：完成將文本信息轉換為語音并按照指定的參數進行朗讀，該方法有Text和Flags兩個參數，分別指定要朗讀的文本和朗讀方式(同步或異步等)。
　　? Pause()：暫停使用該對象的所有朗讀進程。該方法沒有參數。
　　? Resume()：恢復該對象所對應的被暫停的朗讀進程。該方法沒有參數。?

關于SpVoice更多的內容可以參考幫助文件，安裝了Speech SDK就會有，也可以去網上下載，不過是5.1版本的。

[csharp]?view plaincopy

//輸出到音頻：??

SpeechVoiceSpeakFlags?ss?=?SpeechVoiceSpeakFlags.SVSFlagsAsync;//異步朗讀模式??

SpVoice?sp?=?new?SpVoice();??

?voice.Volume=?80;//音量??

?voice.Rate?=?-3;//語速??

sp.Speak(string,ss);//string是要朗讀的文本，可以是Edit控件里的文本或者數據庫中的文本。??

[csharp]?view plaincopy

//輸出到語音文件????????

SaveFileDialog?dialog?=?new?SaveFileDialog();??

dialog.Filter?=?"All?files?(*.*)|*.*|wav?files?(*.wav)|*.wav";??

dialog.Title?=?"Save?to?a?wave?file";??

dialog.FilterIndex?=?2;??

dialog.RestoreDirectory?=?true;??

if?(dialog.ShowDialog()?==?DialogResult.OK)?{??

???????SpeechStreamFileMode?spFileMode?=?SpeechStreamFileMode.SSFMCreateForWrite;//寫模式??

???????SpFileStream?spFileStream?=?new?SpFileStream();//文件流??

???????spFileStream.Open(dialog.FileName,?spFileMode,?false);??

???????voice.AudioOutputStream?=?spFileStream;//voice設置輸出對象為文件流??

???????voice.Speak(txtText.Text.Trim(),?flags);//speak到文件流中，這時音頻不會有聲音發出??

???????voice.WaitUntilDone(5000);//直到輸出完成或者超時??

???????spFileStream.Close();??

}??

這里輸出文件格式除了.WAV還有別的格式，可以用
[csharp]?view plaincopy

spFileStream.Format.Type?=?SpeechAudioFormatType.SAFTCCITT_ALaw_8kHzMono;//輸出為A-LAW格式??

進行更改。

[csharp]?view plaincopy

//輸出到內存??

???????????????????SpMemoryStream?spmemorystrem?=?new?SpMemoryStream();//內存流??

????????????????????spmemorystrem.Format.Type?=?SpeechAudioFormatType.SAFTCCITT_ALaw_8kHzMono;??

????????????????????voice.AudioOutputStream?=?spFileStream;??

????????????????????voice.Speak(InvName,?SpFlags);??

????????????????????voice.WaitUntilDone(50000);//等待完成或者超時??

注：
? ? ? ? 這里編譯可以通過，運行時也沒有音頻輸出，按理說是輸出到內存中去了，但是不知道如何操作這個內存，比如返回一個指針什么的。SpMemoryStream 有GetData()，SetData()方法，分別是從內存中讀取數據，和寫數據。前者返回的是Object，后者沒有返回值。所以沒有辦法從內存中得到音頻流，然后用別的工具（比如語音卡的內存播發函數）進行播放。

? ? ? ? 目前有一個折中的方案，先將數據庫中的文本合成到語音文件，然后調用文件播放函數（語音卡的函數）加載后播放電話端。這樣一次播放就進行了兩次IO操作。

參考文章：
http://www.cnblogs.com/SkyD/archive/2008/08/28/1278478.html
http://www.cnblogs.com/pfs1314/archive/2011/01/11/1932870.html
http://q.cnblogs.com/q/8393/
http://tech.it168.com/a2011/0103/1145/000001145635_1.shtml
http://blog.csdn.net/callmeback/article/details/6838024

http://blog.csdn.net/yuanchunze/article/details/3850835

轉載：http://blog.csdn.net/GAMEloft9/article/details/24715501

總結

以上是生活随笔為你收集整理的微软的TTS的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

微软
TTS

上一篇：帆布指纹识别（canvas finger
下一篇：看雪论坛做测试题得30Kx(附答案)

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

微软的TTS

一、概述

二、如何配置

三、如何使用

總結