日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

百度_音频转文字

發(fā)布時間:2024/8/1 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 百度_音频转文字 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


手機49kbps 轉(zhuǎn)換比特率256Kpbs
{‘corpus_no’: ‘7045177033217452815’, ‘err_msg’: ‘success.’, ‘err_no’: 0, ‘result’: [‘今天下午去開會今天下午去開會’], ‘sn’: ‘858605479691640333103’}
{‘corpus_no’: ‘7045177041635399899’, ‘err_msg’: ‘success.’, ‘err_no’: 0, ‘result’: [‘今天下午去開會今天下午去開會’], ‘sn’: ‘683207632331640333105’}

from aip import AipSpeech from moviepy.editor import AudioFileClip# 語音三個參數(shù):聲道數(shù)、取樣頻率和量化位數(shù);聲道數(shù):單聲道、雙聲道; # 取樣頻率:秒采樣次數(shù);量化位數(shù):bit單次采樣數(shù)據(jù),8bit、16bit、24bit和32bit # 例:CD儲存聲音信號是雙聲道、44.1kHz、16bit```java def avi_hebing():# 1、導入視頻from moviepy.editor import *#1 讀取視頻1videoclip_1 = VideoFileClip("one.mp4")clipSpeed = videoclip_1.speedx(2)#倍速clip = clipSpeed.subclip(0, 50)# 截取前50秒視頻# 1.1.0 將源視頻中指定范圍子窗口內(nèi)容輸出到保存的視頻文件。clip.crop(0, 278, 540, 580).write_videofile(r"F:\video\WinBasedWorkHard_crop.mp4")#保存clipSpeed.write_videofile(r"F:\video\fansNote_speed2.mp4") # 保存#2提取音頻分audio_1 = videoclip_1.audio #單獨提取音頻video_audio_clip = videoclip_1.audio.volumex(0.8) # 提取視頻音頻,并調(diào)小音量#2.1背景音樂audio_clip = AudioFileClip(r'F:\test\video\aaa\moviepy\mp3\test.mp3').volumex(0.5)audio = afx.audio_loop(audio_clip, duration=videoclip_1.duration)#設背景音樂循環(huán),時間與視頻1時間一致# 1.1.4視頻聲音和背景音樂,音頻疊加audio_clip_add = CompositeAudioClip([video_audio_clip,audio])#3 讀取視頻、合并視頻videoclip_2 = VideoFileClip("two.mp4") #讀取視頻final_video = videoclip_2.set_audio(audio_clip_add) #音頻+視頻2合并final_video.write_videofile("video_result.mp4") #輸出新視頻def avi_to_txt():fielname_mp4="kaihui.mp4" #原始視頻文件名my_audio_clip = AudioFileClip(fielname_mp4)#讀取文件#2、 提取音頻并保存(# pcm、wav、amr、m4a)fielname_wav='kaihui.wav'#保存的wav文件名# print(my_audio_clip.duration, my_audio_clip.buffersize,my_audio_clip.nchannels, my_audio_clip.fps)# my_audio_clip.write_audiofile(fielname_wav)my_audio_clip.write_audiofile(fielname_wav, fps=8000, nbytes=2, buffersize=20000,codec=None, bitrate=None, ffmpeg_params=None,write_logfile=False, verbose=True, logger='bar')# buffersize = 200000, nbytes = 2, fps = 44100# 8, 000Hz 電話采樣率# 11, 025 Hz 22, 050 Hz - 無線電廣播所用采樣率# 32, 000 Hz - miniDV數(shù)字視頻camcorder、DAT(LP mode)所用采樣率# 44, 100 Hz - 音頻CD, 也常用于MPEG - 1 音頻(VCD, SVCD, MP3)所用采樣率# 47, 250 Hz - Nippon Columbia(Denon)開發(fā)的世界上第一個商用PCM錄音機所用采樣率# 48, 000 Hz - miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率# 50, 000 Hz - 二十世紀七十年代后期出現(xiàn)的3M和Soundstream開發(fā)的第一款商用數(shù)字錄音機所用采樣率# 50, 400 Hz - 三菱X - 80 數(shù)字錄音機所用所用采樣率# 96, 000 或者192, 000 Hz - DVD - Audio、一些LPCM DVD音軌、Blu - ray Disc(藍光盤)音軌、和HD - DVD(高清晰度DVD)音軌所用所用采樣率# 2.8224 MHz - SACD、索尼和飛利浦聯(lián)合開發(fā)的稱為Direct Stream Digital的1位sigma - delta modulation過程所用采樣率。# write_videofile方法用于將視頻剪輯輸出到文件# write_audiofile(fielname_wav,fps=None, codec=None,bitrate=None, audio_fps=16000)# write_videofile(self, filename, fps=None, codec=None,# bitrate=None, audio=True, audio_fps=44100,# preset="medium",# audio_nbytes=4, audio_codec=None,# audio_bitrate=None, audio_bufsize=2000,# temp_audiofile=None,# rewrite_audio=True, remove_temp=True,# write_logfile=False, verbose=True,# threads=None, ffmpeg_params=None,# logger='bar')# filename:保存視頻文件名,只要是ffmpeg支持的視頻文件如 .ogv, .mp4, .mpeg, .avi, .mov等都可以# fps:幀率,每秒編碼的幀數(shù)# codec:圖像編解碼器,ffmpeg支持解碼器。擴展名“.mp4”、“.ogv”、“.webm”,則相應地設置編解碼器,其他擴展名,須設置輸出文件名。常用編解碼器如下:# √. ‘libx264’:視頻壓縮效果好,MP4缺省編解碼器,質(zhì)量bitrate參數(shù)調(diào)節(jié)# √. ‘mpeg4’:可選MP4編解碼器,可替代’libx264’,可獲更好視頻質(zhì)量# √.‘rawvideo’:完美視頻質(zhì)量,文件巨大,對應視頻文件為’.avi’# √. ‘png’:完美視頻質(zhì)量,視頻文件為’.avi’,比’rawvideo’小# √. ‘libvorbis’:完全開放、免費編解碼器,不錯視頻格式,對應視頻文件為’.ogv’# √. ‘libvpx’:很適合HTML5使用的網(wǎng)絡視頻輕量級開源解碼器,視頻文件為’.webm’# bitrate:輸出視頻比特率,即碼率BPS(Bits Per Second),每秒傳送數(shù)據(jù)位數(shù)# audio:可為True、False或文件名,如True且剪輯附加音頻,則音頻作為視頻的音頻保存,如False則不保存音頻,如為音頻文件名則此音頻文件將作為視頻的音頻# audio_fps:聲音的采樣頻率# preset:設置FFMPEG用于優(yōu)化壓縮時間。字符串類型,可選:ultrafast、superfast、veryfast、faster、fast、medium、slow、slower、veryslow、 placebo。請注意,這不會影響視頻的質(zhì)量,只影響視頻文件的大小。所以如果趕時間而文件大小不是很重要可以設置為ultrafast# audio_nbytes:音頻采用位數(shù),對應基于字節(jié)為單位是聲道數(shù);# audio_codec:音頻解碼器,如’.mp3’的’libmp3lame’、‘ogg’的’libvorbis’、 ‘m4a’的’libfdk_aac’、 ‘pcm_s16le’ 16位聲音和’pcm_s32le’的32位聲音。默認值為“l(fā)ibmp3lame”,除非視頻擴展名為“ogv”或“webm”,在這2種情況下,默認值為“l(fā)ibvorbis”。# audio_bitrate:音頻比特率,字符串形式,如“50k”、“500k”、“3000k”,用于將確定輸出文件中音頻的大小/質(zhì)量。注意,這是一個指示性目標,輸出文件比特率不一定會按此設置。# audio_bufsize:音頻緩沖區(qū)大小# temp_audiofile:如輸出由音頻,該參數(shù)用于指定--要生成并合并到電影中的臨時音頻文件的名稱,如果沒有指定則用缺省模式臨時文件名# rewrite_audio:這個參數(shù)目前沒有作用,可能為了兼容前版本# remove_temp:是否刪除臨時文件# write_logfile:為True,為音頻和視頻輸出記錄日志文件。日志文件將以“.log”結(jié)尾,包含輸出文件的名稱# verbose:已經(jīng)廢棄使用,留下來是為了兼容性,以前用于打開/關(guān)閉消息。現(xiàn)在使用logger=None。# threads:用于ffmpeg的線程數(shù),可以加快多核計算機上視頻輸出的速度# ffmpeg_params:需額外傳遞其他ffmpeg參數(shù),用列表傳遞,形如:[’-option1’,‘value1’,’-option2’,‘value2’]# logger:字符串類型,"bar"表示進度條、None 表示不設置、或任何程序日志記錄器的名字# ————————————————# 版權(quán)聲明:本文為CSDN博主「LaoYuanPython」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。# 原文鏈接:https://blog.csdn.net/LaoYuanPython/article/details/114589561#2、wav轉(zhuǎn)pcmimport numpy as npdef wav2pcm(wavfile, pcmfile, data_type=np.int16):f = open(wavfile, "rb")f.seek(0)f.read(44)data = np.fromfile(f, dtype= data_type)data.tofile(pcmfile)pcmfile_pcm='kaihui.pcm'#設置保存文件名wav2pcm(fielname_wav, pcmfile_pcm, data_type=np.int16)#保存# 申請百度語音識別APP_ID = ''API_KEY ='GYKqlTqfnxFHokkfEujXbuDW'SECRET_KEY ='23zkptXIwi0YnWbfpll2s5jhFkKxZuSR'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 讀取文件def get_file_content(file_path):with open(file_path, 'rb') as fp:return fp.read()# 識別本地文件fielname_wav='kaihui.wav' ## fielname_wav='16k.wav'百度測試文件result = client.asr(get_file_content(fielname_wav), 'wav', 16000, {'dev_pid': 1536})# result = client.asr(get_file_content(fielname_wav), 'wav', 713125, {'dev_pid': 1536})print(result)# 識別本地文件# pcmfile_pcm='16k.pcm' #百度提供初期測試test1 = client.asr(get_file_content(pcmfile_pcm), 'pcm', 16000, {'dev_pid': 1536, })# 參數(shù)1: speech 音頻文件流 包含語音Buffer對象, 文件格式:pcm 或 wav 或 amr,pcm最好# 參數(shù)2: format 文件格式,包括pcm(不壓縮)、wav、amr# 參數(shù)2: rate 音頻文件采樣率 如使用FFmpeg命令轉(zhuǎn)換,是16000# 參數(shù)4: dev_pid 語言id 默認1537(普通話 輸入法模型)print(test1)

總結(jié)

以上是生活随笔為你收集整理的百度_音频转文字的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。