日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中国大学MOOC 视频字幕获取及处理方法

發布時間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中国大学MOOC 视频字幕获取及处理方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近上課需要做筆記,但是,一句句的抄字幕工作量有點大,于是查找了一此方法,嘗試成功,在此記錄下下:

1、首先,打開你所要下載字幕的視頻,如?https://www.icourse163.org/learn/NUDT-1003101005?tid=1003312002#/learn/content?type=detail&id=1004836185&sm=1

2、在當前頁面按F12鍵,然后點擊network,接著按ctrl+F會出來一個搜索框,然后在當前頁面按F5刷新該頁面(也可以點擊瀏覽器的刷新按鈕)

3、在搜索框中輸入:downloadVideoSrt.htm,進行搜索,會得到如下結果,雙擊搜索到的鏈接,右邊會顯示一條黃色代碼,復制url后的地址到瀏覽器中即可下載該視頻的字幕文件,一般為txt文件。

4、得到字幕之后,將其重命名為如下格式:

例如,將(2)所示課程對應的字幕文件重命名為3-3-1.txt,表示第3講第3小節的第一個視頻字幕文件(本小節共有2個視頻),字幕內容如右所示,接下來我將用python提取其中的字幕,去掉其他部分。具體程序如下:

import rejiang = 3 # 定義是第幾講 xiaojie = 1 # 定義是第幾小節課 fileNum = 2 # 定義本節共有幾個視頻文件,將這些文件中的字幕提取到一起resultContent = "第"+str(jiang)+"講-第"+str(xiaojie)+"節\n" newFile = "E:\\new\\第" + str(jiang) + "講-第" + str(xiaojie) + "節字幕.txt" print(newFile) fnew = open(newFile, "w+", encoding="utf-8") for i in range(1, fileNum+1):fileName = str(jiang)+"-"+str(xiaojie)+"-"+str(i)+".txt"oldfile = "E:\\source\\" + fileNamef = open(oldfile,encoding="utf-8")line = f.readline()fileContent = ""while(line):try: # 如果本行只有數字,則跳過本行,繼續處理一下行int(line)line = f.readline()continueexcept ValueError:passline = re.sub(r'\d{2}:\d{2}:\d{2},\d+', '', line)# line= re.sub(r'\d+\n', '', line)line = line.replace("-->", "").replace("\n", "")fileContent = fileContent + lineline = f.readline()resultContent = resultContent + fileContent + "\n\n"print("resultContent" + resultContent) fnew.write(resultContent)f.close() fnew.close()

簡單處理后的結果如下:

同時會將每一小節的輸出內容寫入txt文檔中,保存在E:\new路徑(也可以另外指定其他路徑)下,然后將本講的所有小節內容手動將其復制到word中(因為python自動生成wrod文檔的話會出現格式問題)。

若在下有可以幫到的地方或您有更好的優化方法,歡迎留言建議。

總結

以上是生活随笔為你收集整理的中国大学MOOC 视频字幕获取及处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。