python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园
為了學習英語,我把從網上下載下來的電影轉換成純MP3文件,放到iTouch里去了,這樣就可以直接練習聽力了,另外把下載下來的字幕也放進去,聽不懂的時候可以看,但有一個問題,網上載下來的字幕格式都如下所示:
7
00:01:44,789 --> 00:01:51,019
片名:當幸福來敲門 / 追求幸福
8
00:02:49,469 --> 00:02:52,839
馬上來了
Should be here soon.
9
00:03:38,819 --> 00:03:41,189
- 我想我該列個表 - 干嘛?
-I think I should make a list. -What do mean?
10
00:03:41,189 --> 00:03:43,789
- 想要的生日禮物? - 對呀
-For your birthday gifts? -Yeah.
如上,但存在兩個問題:1、每一句前面都帶有數字編號;2、帶有時間戳;
我只想要里面的中英文文本,數字編號和時間戳都不需要。由于最近正在學習Python當然首先就想到了做個Python腳本來把時間戳和編號刪掉。實現很簡單,基本思路就是使用正則表達式匹配,把空行、純數字行及帶有“-->”的行刪掉,然后再先回文本文件。
完成后的代碼如下:
# -*- coding: utf-8 -*-
# code=cp936
import string, re
title_txt = open('I://pursuit_for_happiness(ch).txt', 'r+')
try:
full_txt = title_txt.readlines()
regex1 = "/A/d*[/n]/Z"
regex2 = "/d --> /d"
#print full_txt
new_txt = []
for line in full_txt:
#print line
if re.match(regex1, line) or re.search(regex2, line):
#print "match", line
continue
else:
new_txt.append(line)
title_txt.seek(0)
title_txt.truncate(0)
#for line in full_txt:
# title_txt.writelines(line)
title_txt.writelines(new_txt)
finally:
title_txt.close()
print "Over"
過程中遇到一個問題:
1、Python中沒辦法清空一個文件,亂看了一通,發現使用truncate()方法,傳入參數為0時可以搞定。
2、開始的時候直接使用for遍歷list中的元素,匹配到就刪除,發現需要執行多次腳本才能刪完,且有些還始終刪不掉,最后終于搞明白了:使用for i in list:時,如果一匹配到就刪除,則此時list中的元素會改變,進入循環的下一輪時不出問題才怪。造孽,花了近一個小時才把這個問題搞定了。于是重新定義了一個空鏈表new_txt,使用它來存儲我要的字幕,循環完成后把new_txt寫回文件。大功告成!
爽,拷到我的iTouch里,開始學習英語了!
總結
以上是生活随笔為你收集整理的python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVAWEB入门第一篇
- 下一篇: python中os模块_Python的武