日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > Android >内容正文

Android

睡眠音频分割及识别问题(十一)--基于Android的YAMNet音频识别(总结)

發(fā)布時(shí)間:2024/8/23 Android 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 睡眠音频分割及识别问题(十一)--基于Android的YAMNet音频识别(总结) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

WAV文件格式介紹

WAV文件遵守資源交換文件格式之規(guī)則,在文件的前44(或46)字節(jié)放置標(biāo)頭(header),使播放器或編輯器能夠簡單掌握文件的基本信息,其內(nèi)容以區(qū)塊(chunk)為最小單位,每一區(qū)塊長度為4字節(jié),而區(qū)塊之上則由子區(qū)塊包裹,每一子區(qū)塊長度不拘,但須在前頭先宣告標(biāo)簽及長度(字節(jié))。標(biāo)頭的前3個(gè)區(qū)塊記錄文件格式及長度;接著第一個(gè)子區(qū)塊包含8個(gè)區(qū)塊,記錄聲道數(shù)量、采樣率等信息;接著第二個(gè)子區(qū)塊才是真正的音頻資料,長度則視音頻長度而定。內(nèi)容如下表所示。須注意的是,每個(gè)區(qū)塊的端序不盡相同,而音頻內(nèi)容本身則是采用小端序。

Android端使用java對wav進(jìn)行數(shù)據(jù)讀取,具體實(shí)現(xiàn)參考AudioReader的readHead()方法代碼細(xì)節(jié)。

Android端實(shí)現(xiàn)讀取音頻文件源碼介紹

主要使用Java io庫中的 InputStream 接口,實(shí)現(xiàn)讀取文件的字節(jié)流信息。主要實(shí)現(xiàn)類為AudioReader類,工具類為Utils,項(xiàng)目代碼結(jié)構(gòu)如下所示:

PO包的文件說明如下:

  • AudioFragment為一個(gè)接口,存放0.975s音頻文件的相關(guān)信息;
  • IAudioFragment 為AudioFragment實(shí)現(xiàn)的接口;
  • Score包含一個(gè)字符串(label)和一個(gè)浮點(diǎn)數(shù)(score),存放???;
  • AudioReader為讀取wav文件信息、預(yù)測音頻標(biāo)簽的實(shí)現(xiàn)類;
  • LabelsName存儲(chǔ)著521個(gè)標(biāo)簽的字符串;
  • MyComparator主要實(shí)現(xiàn)對Score對象數(shù)組的排序;
  • Utils中包括幾個(gè)常用的音頻數(shù)據(jù)處理方法(工具類)。

IAudioFragment接口

該接口主要對功能進(jìn)行初步定義。主要包含前N名的Score數(shù)組,以及實(shí)現(xiàn)是否在打鼾、咳嗽和打噴嚏。

public interface IAudioFragment { float start = 0; float end = 0; public Score[] scores = null; public abstract boolean isSnore(); public abstract boolean isCough(); public abstract boolean isSneeze(); public Score[] getScores(); public void setScores(Score[] scores); }

AudioFragment實(shí)現(xiàn)類

對接口IAudioFragment進(jìn)行實(shí)現(xiàn),實(shí)現(xiàn)原理為:只保存前5的評分時(shí),若Snore標(biāo)簽在前5中,則isSnore()返回true,否則返回false,其他方法同理。其中浮點(diǎn)數(shù)start和end表示該AudioFragment對象的起始與結(jié)束時(shí)間。例如:當(dāng)你傳入一段10s的音頻進(jìn)行預(yù)測時(shí),會(huì)返回一個(gè)AudioFragment對象數(shù)組,其數(shù)組中第一個(gè)元素的起始時(shí)間為start = 0,結(jié)束時(shí)間為end = 0.975;第二個(gè)元素的起始時(shí)間為start =0.975,結(jié)束時(shí)間為end = 1.950(單位s)。
以下為部分核心代碼:

float start = 0; float end = 0; Score[] scores = null; Score scoreSnoring = null; // 打鼾 38 Score scoreCough = null; // 咳嗽 42 Score scoreSneeze = null; // 打噴嚏 44 ······ @Override public boolean isSnore() { return isContain("Snore",scores); } @Override public boolean isCough() { return isContain("Cough",scores); }

Score類

該對象只包含兩個(gè)屬性,將標(biāo)簽與評分綁定在一個(gè)對象中。

String label; float score;

LabelsName類

主要存儲(chǔ)521個(gè)標(biāo)簽的字符串?dāng)?shù)組,供其他類調(diào)用。

IAudioProcess接口

主要對音頻的加載與處理功能的定義。

// 通過傳入Android上下文環(huán)境,音頻文件路徑,獲取該音頻文件的輸入流 public InputStream initInputStream(Context context, String fileName); // 初始化Yamnet模型 public Yamnet initYamnetModel(Context context); // 預(yù)測函數(shù),該函數(shù)應(yīng)該在傳入音頻文件后再調(diào)用,應(yīng)該返回多個(gè)AudioFragment對象,AudioFragment對象中默認(rèn)存儲(chǔ)評分前5的標(biāo)簽 public AudioFragment[] predict(); // 同predict(),可以指存儲(chǔ)評分中前topN個(gè)標(biāo)簽 public AudioFragment[] predict(int topN); // 在初始化后使用,對目標(biāo)fileName音頻文件進(jìn)預(yù)測,返回多個(gè)AudioFragment對象,AudioFragment對象中存儲(chǔ)評分前topN的標(biāo)簽 public AudioFragment[] predictByAudioFile(String fileName,int topN); // 預(yù)測0.975s音頻數(shù)據(jù)的具體實(shí)現(xiàn)方法,Yamnet模型要求輸入input為[-1,1]的長度為 15600的數(shù)組,經(jīng)過預(yù)測得到評分結(jié)果,再與 start、end與topN一起用于構(gòu)造一個(gè) AudioFragment對象。 public AudioFragment predictOneSecond(Yamnet model, float[] input, float start, float end, int topN); // 0.975s

AudioReader類

主要對IAudioReader進(jìn)行實(shí)現(xiàn)。其構(gòu)造函數(shù)必須傳入解析的文件名,以及上下文環(huán)境。以下為構(gòu)造函數(shù):

/** * @param context Android Context * @param fileName The target wav format file that needs to be predicted * */ public AudioReader(Context context, String fileName){ this.context = context; this.fileName = fileName; initInputStream(context,fileName); getInstance(context); }

在安卓活動(dòng)中構(gòu)建AudioReader對象并執(zhí)行預(yù)測的示例如下:
(1)在初始化時(shí)直接指定文件并預(yù)測

AudioReader audioReader = new AudioReader(this,"demo.wav"); AudioFragment[] audioFragments = audioReader.predict(); // 默認(rèn)只保存 前5評分

(2)在初始化時(shí)直接指定文件并預(yù)測前10個(gè)標(biāo)簽

AudioReader audioReader = new AudioReader(this,"demo.wav"); AudioFragment[] audioFragments = audioReader.predict(10);

(3)在初始化后改變預(yù)測文件

AudioReader audioReader = new AudioReader(this,"demo.wav"); // 預(yù)測other.wav中評分前10的標(biāo)簽 AudioFragment[] audioFragments = audioReader.predict("other.wav",10);

MyComprator類

主要對Score對象數(shù)組的排序,主要使用方法如下:

// resultScores 為Score對象數(shù)組,升序。在原有的resultScores上改變 Arrays.sort(resultScores, new MyComprator());

Utils類

主要完成重復(fù)性工作,例如Byte與int的轉(zhuǎn)換、Byte與String的轉(zhuǎn)換、Byte與int的轉(zhuǎn)換,打印AudioFragment數(shù)組。

總結(jié)

以上是生活随笔為你收集整理的睡眠音频分割及识别问题(十一)--基于Android的YAMNet音频识别(总结)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。