日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

李宏毅NLP笔记

發(fā)布時(shí)間:2023/12/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 李宏毅NLP笔记 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

1.course overview
2.語(yǔ)音辨識(shí)
3.
4.
5.
6.
7.
8.
9.
10.

一、Course Overview

  • 自然語(yǔ)言
  • (1)概念

    • 人造語(yǔ)言:程序語(yǔ)言,Python、c++
    • 自然語(yǔ)言:用于人類互相溝通的語(yǔ)言,eg:中文、英文

    (2)語(yǔ)音 audio

    • 重要性:很多語(yǔ)言沒有具體的文字系統(tǒng),計(jì)算機(jī)只能通過語(yǔ)音進(jìn)行理解
    • 復(fù)雜性:16k sample points/s,256 possible values/points。因此聲音信號(hào)的可能性非常大,沒有一模一樣的聲音

    (3)文字 text

  • 核心任務(wù)(6種技術(shù))

    應(yīng)用分別有這些應(yīng)用speech recognition(語(yǔ)音辨識(shí))、Text-to-Speech Synthesis語(yǔ)音合成、speech separation(將一段多個(gè)speaker同時(shí)發(fā)出的聲音信號(hào)分離),voices conversion(類似變聲器)、Speaker Recognition(判斷聲音信號(hào)的speaker),Keyword Spotting(關(guān)鍵字辨識(shí))、、text generation、機(jī)器翻譯,syntactic parsing(文法剖析)

  • 其他技術(shù)

    • Meta Learning:讓機(jī)器學(xué)習(xí)學(xué)習(xí)的算法。先讓模型在很多任務(wù)上進(jìn)行學(xué)習(xí),學(xué)習(xí)目標(biāo)是找到學(xué)習(xí)方法,使得在新的任務(wù)上進(jìn)行簡(jiǎn)單的訓(xùn)練(更少的訓(xùn)練資料,更短的訓(xùn)練時(shí)間)就可以有很好的效果
    • Learning from Unpaired Data
      將圖像中的風(fēng)格遷移應(yīng)用到語(yǔ)音和文字中。將一種語(yǔ)音/文字視為一種風(fēng)格,學(xué)習(xí)輸入風(fēng)格和輸出風(fēng)格之間的映射關(guān)系
    • Knowledge Graph
      通過讓機(jī)器閱讀大量訓(xùn)練資料學(xué)習(xí)knowledge,讓后再講學(xué)到的knowledge應(yīng)用到其他任務(wù)模型中
    • Adversarial Attack
      (1)語(yǔ)音
      判斷一段語(yǔ)音信號(hào)是不是經(jīng)過合成或變聲;
      在語(yǔ)音中加入噪聲迷惑機(jī)器
      (2)文字
    • Explainable AI

    二、語(yǔ)音辨識(shí)

    任務(wù):語(yǔ)音信號(hào)->文本

    輸出單位(token)的類別:

    • Phoneme:聲音信號(hào)的基本單位,有點(diǎn)類似音標(biāo)。但是需要詞典(Lexcion音標(biāo)與詞匯的映射)輔助
    • Grapheme:字母,文本的最小單位。優(yōu)點(diǎn)在于不需要Lexcion。對(duì)于英文來講,Grapheme的容量是26個(gè)英文字母+空格+標(biāo)點(diǎn)符號(hào);對(duì)于中文,Grapheme是漢字集合,常用字大約在4000+。
    • Word:詞匯。對(duì)于一些語(yǔ)言來講,詞匯的數(shù)量過大
    • Morpheme:詞素。傳達(dá)含義的最小單位。(獲取可以通過老專家或統(tǒng)計(jì))
    • Bytes:字節(jié)。優(yōu)勢(shì)在于不依賴于語(yǔ)言,所有語(yǔ)言都可以表示成bytes,數(shù)量是256

      總結(jié)

      Grapheme簡(jiǎn)單易上手,不需要老專家,容易獲得;Phoneme跟語(yǔ)音的關(guān)系更明確,在語(yǔ)音方面更簡(jiǎn)單,但是需要更強(qiáng)大的模型將其映射到文字;
      語(yǔ)音辨識(shí)與其他應(yīng)用的結(jié)合

      輸入:聲音信號(hào)(長(zhǎng)度為T,緯度為d)

      通過一個(gè)長(zhǎng)度為25ms的滑動(dòng)窗口提取特征,將聲音信號(hào)轉(zhuǎn)化成d緯的特征向量(frame),使用不同的策略得到的緯度不同(上圖展示了三種策略)。每個(gè)窗口之間的間隔是10ms(窗口之間有重疊)意味著1s的聲音信號(hào)將轉(zhuǎn)化成100個(gè)特征向量(100*d)
    • 語(yǔ)音信號(hào)的特征提取過程

      Waveform:25ms的聲音信號(hào)。聽起來相同的聲音,他們的聲音信號(hào)可能非常不同
      DFT:離散傅里葉變換
      spectrogram:頻譜圖。和聲音信號(hào)的關(guān)聯(lián)性非常明確,可以通過頻譜圖猜到聲音內(nèi)容
      filter bank:濾波器組(專家設(shè)計(jì))
      DCT:離散余弦變換

      filter bank output成為主流
      訓(xùn)練數(shù)據(jù)量

    對(duì)比圖像

    模型使用趨勢(shì)

    八、bert

    總結(jié)

    以上是生活随笔為你收集整理的李宏毅NLP笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。