日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别系列1:语音识别Speech recognition综述

發布時間:2025/3/21 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语音识别系列1:语音识别Speech recognition综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

名詞約定:

語聲識別----- VOICE RECOGNITION

語音識別-----SPEECH?RECOGNITION

1 什么是語聲識別VOICE RECOGNITION?

????????語音或說話者識別是程序根據其獨特的聲紋識別人的能力。它通過掃描語音并與所需的語音指紋建立匹配來工作。人工智能的發展為計算機科學的這一子領域開辟了廣闊的機遇。它使我們能夠在不接觸機器的情況下與機器進行交互。它發展迅速,開發人員正在尋找越來越多的方法將其應用到各個領域。

2 語聲識別(VOICE RECOGNITION)和語音識別(SPEECH?RECOGNITION)有什么區別?

????????了解這兩個學科之間的差異至關重要。語音識別的目的是識別語音所有者。語言識別的目的是識別說話者的話。在第一種情況下,程序需要說話人的獨特聲紋進行比較。在第二種情況下,程序需要一個巨大的字典來識別說話者的意義表達。

3 語聲識別(VOICE RECOGNITION)系統的類型

? ? ? ? 語音識別有兩類,它們是:

  • 文本相關——系統經過訓練,可以識別說話者預先確定的語音密碼;
  • 文本獨立 - 它不需要預先確定的密碼。分析的主題是會話語音。

4? 語音識別系統的類型


????????我們可以將自動話語識別(ASR)分為不同的類別。首先,它依賴于揚聲器。從這方面來看,有兩種類型是已知的,它們是:

  • 取決于說話者——程序經過訓練可以識別特定的聲音,類似于語音識別。說話者必須與程序“交談”并賦予程序分析聲音的能力。這樣的系統更容易實現。它們在語音識別方面提供了高精度;
  • 說話者獨立——這種類型的語音識別軟件有更廣泛的用途。它不需要訓練來分析聲音。重點是說話者的單詞識別。此類程序的典型示例是 IVR 系統。

另一種分類方法是基于用戶說話的方式。這些類別是:

  • 離散語音識別——ASR 應用程序從早期版本開始就使用這種方法。 Т說話者必須分別發音每個單詞,在它們之間插入停頓。使用這樣的程序,工作起來更加困難。口語頻率不易保證;
  • 連續語音識別——這是一種相對較新的 ASR 方法,需要更多的努力來開發。在這種情況下,說話者的語速接近正常。

????????在人工智能語音識別領域,另一種技術是眾所周知的。它是自然語言處理(NLP)。 Тhe 語音識別系統的任務是理解單詞。 NLP 系統的任務是理解和回答說話者。那是模仿人與機器之間的交流。 NLP 接近語音/語音識別,但基于不同的算法。

5 語音識別簡史

????????這項技術的第一個重要步驟始于 IBM 的貝爾實驗室。 1952 年,IBM 推出了奧黛麗 Audrey,這是第一個記錄在案的語音識別器。奧黛麗是一個完全類比系統,可以理解單個數字,中間有停頓。十年后,IBM 推出了 Shoebox,能夠識別 0 到 9 的 16 個英文單詞和數字。在 1970 年代初期,這項技術的發展有了飛躍。這主要歸功于美國國防部的研發機構 DARPA。經過五年的研究,卡內基梅隆大學誕生了 Harpy。一臺能夠理解 1011 個單詞的機器。此外,Harpy 與它的前輩有很大不同。它可以理解句子。 80 年代初,語音識別系統的詞匯量增加到幾千個單詞。這主要歸功于隱馬爾可夫統計模型。語音識別從基于模式的數字信號處理轉變為使用統計模型從未知聲音中預測單詞。

????????此外,機器在識別單詞方面變得更加準確。 IBM 的語音識別小組在 80 年代中期推出了實驗性轉錄系統 Tangora。 Tangora 能夠識別 20000 個單詞。從 1990 年代開始,借助個人電腦,DragonDictate 等語音識別產品開始為消費者所用。在過去的二十年里,許多科技巨頭都在從事這項技術。在本文后面,您將熟悉他們的產品。

6 語音識別的工作原理


現代 ASR 系統基于三種模型:聲學、發音和語言。

  • 聲學建模使區分語音信號和音素(聲音單位)成為可能。隱馬爾可夫模型 (HMM) 是一種常見的聲學建模方法。其他方法使用深度神經網絡或卷積神經網絡等;
  • 發音模型定義了如何組合音素來造詞;
  • 語言建模是一門有助于區分發音相同的單詞和短語的學科。

????????錄制語音后,噪聲被清除,有用信號從錄音中過濾掉。 Т他的記錄被分成小片段。之后,每個片段都通過聲學模型。這些片段與音素進行比較,音素是一個最初構建的統計模型,用于描述語音中每個聲音的發音。基于這些匹配,從音素中收集單詞。 Тhe 查找單詞的效率很大程度上取決于預先準備好的音素數據庫的大小。

6.1 錄制你的聲音


????????在任何設備上,都使用麥克風進行錄音。如果設備沒有,則需要連接麥克風耳機或專業麥克風。為此,您可以使用預安裝的應用程序,例如 Windows 10 上的錄音機、Apple 產品上的語音備忘錄等。還有大量具有高級功能的應用程序。它們提供了選擇記錄質量、比特率或格式來保存記錄的機會。有些是基于人工智能的,可以讓你擺脫錄音中不必要的噪音。

6.2 注冊


????????用戶注冊需要記錄說話人的聲音并提取獨特的聲紋作為每個說話人識別軟件的第一階段。下一階段是驗證。將錄制的語音與不同語音的數據庫進行比較,以找到最佳匹配或與特定語音。

7 語音識別工具


如果您不想構建語音識別系統,可以使用各種開源工具。其中有:

  • CMU Sphinx——卡內基梅隆大學開發的獨立于說話者的連續語音識別系統。 CMU Sphinx 包括一組為不同目的而設計的產品。可從 GitHub 網頁下載。此外,您還可以在那里找到用戶文檔。支持多種流行的編程語言,如C/C++、C#、Java、Python;
  • HTK 工具包——用于處理隱馬爾可夫模型的工具包。它由機器智能實驗室在劍橋大學開發,主要用于語音識別研究。它不是完全開源的。用戶可以在 HTK 官方網站上找到有關使用該產品的信息。支持的編程語言是 C 和 Python;
  • Kaldi——這是一個用于語音識別和信號處理的開源工具包。該工具包本身可從 GitHub 存儲庫下載。該文檔可在官方網站上找到。支持的編程語言是 C++ 和 Python。

8?如何使用語音識別


????????由于個人電腦和智能手機以及人工智能的快速發展,語音和語音識別軟件已經進入我們的日常生活。他們讓我們通過交談來控制我們的設備。第一個值得一提的產品是虛擬助手。谷歌和蘋果正在發布帶有內置虛擬助手的操作系統。微軟已將其虛擬助手 Cortana 添加到 Windows。智能揚聲器與虛擬助手集成。此類設備的示例包括嵌入 Alexa 的 Amazon Echo 和在 Siri 上運行的 Apple HomePod。語音識別在呼叫中心的 IVR 系統、醫療設備中實現。它用于具有語音生物特征的安全系統。在人類需要與機器交互的任何地方,這項技術都會很有幫助。

9 為什么語音識別好?


????????語音識別技術提高了用戶的工作效率。它捕捉人類語音的速度比我們打字的速度要快得多。此外,當您的手忙于其他工作時,您可以與您的設備交談,同時執行兩個操作。對于不能用手的殘疾人來說,這是必不可少的。它們從安全方面增加了一層額外的可靠性,因為偽造獨特的聲紋并不容易。

10 語音識別的優缺點


????????語音識別是一門相對較新的科學。它已經從能夠識別單一語言中的數十個單詞的簡單程序發展為基于人工智能的復雜系統。幾十年來,它得到了長足的發展,并開始解決更廣泛的任務。盡管如此,要改進它還有很多工作要做。讓我們總結一下它有哪些優點和缺點。

10.1 語音識別優勢

  • 提高企業的生產力;
  • 自動化企業和客戶之間的互動;
  • 添加額外的安全級別;
  • 捕捉語音的速度比人類打字的速度更快;
  • 幫助殘疾人;
  • 幫助控制您的家庭設備;
  • 協助駕駛員使用車內 ASR 系統等。

10.2 語音識別的缺點

  • 如果說話者說話快速且不清楚,系統將無法完全識別語音;
  • 需要大詞匯量來提高識別準確率;
  • 每種語言都需要單獨的 ASR 培訓;
  • 企業可以在未經其許可的情況下收集和使用用戶的語音數據;
  • 時間和財務成本高;
  • ASR 軟件消耗大量內存并需要大量 RAM。

11 語音識別技術應用

我們談到了語音識別系統的廣泛使用。讓我們看看它在特定領域有哪些應用。

11.1 衛生保健


在醫學上,語音識別主要用于編寫患者文檔。存在兩種不同的文檔過程方法。

前端文檔是將語音實時翻譯成文本的過程。在這種情況下,系統更有可能出錯。醫生必須修正文本。所以最好用它來做個人筆記;
后端文檔的作用相同,但還將說話者的錄音附加到文本中。系統提供文本草稿,以便醫生修復錯誤。

11.2 軍隊


在這個領域,它主要用于對機器和設備的指揮和控制。語音命令要快得多。在戰斗中,這可以在贏得戰斗中發揮關鍵作用。

11.3 教育用途


學生可以在學習語言的同時檢查他們的發音。它可以幫助避免語法、標點錯誤。編寫大文本的挑戰性較小。學生可以輸入大文本而不會感到疲倦。

11.4 殘疾人


手殘學生或盲人可以不受限制地書寫。 ASR 使他們能夠跟上學習進度。

11.4 車載系統


汽車中的語音識別降低了道路上發生事故的風險。諸如撥號、使用 MP3 播放器或收音機等操作無需將手從方向盤上移開。

11.5 語音控制的視頻游戲


它可以幫助您學習游戲。玩家需要時間來記住游戲控制鍵。相反,他們可以使用語音命令。

12 不同語音識別(虛擬助手)軟件


虛擬助理系統相當復雜且昂貴。科技巨頭的解決方案主要主導市場。讓我們了解一下他們。

APPLE'S SIRI

此個人助理僅適用于 Apple 用戶。它首先出現在 iPhone 4S 中,并成為新 Apple 產品不可或缺的一部分。 Siri 可以在 Twitter 或 Facebook 上發帖、解決復雜的數學問題、保存筆記、進行預訂等。

AMAZON ALEXA

亞馬遜正在運送帶有 Alexa 的智能揚聲器。它于 2013 年首次亮相。與 Siri 不同,它可以集成到第三方設備中。它能夠進行語音交互、管理在線購物和音樂播放。它還可以控制多個智能設備。

MICROSOFT'S CORTANA

它是微軟于 2014 年發布的虛擬助手,主要供 Windows 操作系統用戶使用,但也適用于 Android 和 IOS 用戶。 Cortana 允許您管理日歷、在 Microsoft Teams 中加入會議、設置提醒以及在計算機上打開應用程序。

GOOGLE ASSISTANT

Google 通過 Google Now 開始了創建虛擬助手的旅程。這是谷歌搜索的一項功能,允許用戶使用語音搜索信息。幾年后,谷歌停止了該項目的開發,并于 2016 年發布了 Google Assistant。它最初被集成到 Google Home 智能揚聲器和 Google Pixel 智能手機中。

NUANCE'S DRAGON ASSISTANT AND?DRAGON NATURALLY SPEAKING

Dragon Naturally speak 是由 Nuance Communications 開發的語音識別軟件。在本文前面,我們提到了 Dragon Dictate 應用程序。多年來,它得到了改進,現在被稱為龍自然說話。該公司還為個人電腦提供個人助理 Dragon Assistant。

13 語音識別需要訓練嗎?


要使用語音識別系統,您不需要長時間的培訓課程。互聯網上有很多關于如何啟用和使用它們的信息。它們可以在制造商的官方網站或其他平臺上找到。這里有一些有用的鏈接。

  • Apple 關于如何在 MAC 上使用語音控制的文章。 Youtube 上的視頻;
  • 一篇關于如何在 Windows 上使用語音控制和 Youtube 上的視頻的文章;
  • Nuance 通信產品的在線大學。

14?語音識別技術的未來用途


語音識別的未來非常有前景。 ASR 系統不僅可以識別單詞,還可以識別一個人的情緒。語音識別將應用于航空航天、家庭自動化、機器人、遠程信息處理和視頻游戲等領域。

參考文章:

What is Voice Recognition? Voice & Speech Recognition Overview — RecFaces

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的语音识别系列1:语音识别Speech recognition综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。