python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园
為了學(xué)習(xí)英語(yǔ),我把從網(wǎng)上下載下來(lái)的電影轉(zhuǎn)換成純MP3文件,放到iTouch里去了,這樣就可以直接練習(xí)聽(tīng)力了,另外把下載下來(lái)的字幕也放進(jìn)去,聽(tīng)不懂的時(shí)候可以看,但有一個(gè)問(wèn)題,網(wǎng)上載下來(lái)的字幕格式都如下所示:
7
00:01:44,789 --> 00:01:51,019
片名:當(dāng)幸福來(lái)敲門 / 追求幸福
8
00:02:49,469 --> 00:02:52,839
馬上來(lái)了
Should be here soon.
9
00:03:38,819 --> 00:03:41,189
- 我想我該列個(gè)表 - 干嘛?
-I think I should make a list. -What do mean?
10
00:03:41,189 --> 00:03:43,789
- 想要的生日禮物? - 對(duì)呀
-For your birthday gifts? -Yeah.
如上,但存在兩個(gè)問(wèn)題:1、每一句前面都帶有數(shù)字編號(hào);2、帶有時(shí)間戳;
我只想要里面的中英文文本,數(shù)字編號(hào)和時(shí)間戳都不需要。由于最近正在學(xué)習(xí)Python當(dāng)然首先就想到了做個(gè)Python腳本來(lái)把時(shí)間戳和編號(hào)刪掉。實(shí)現(xiàn)很簡(jiǎn)單,基本思路就是使用正則表達(dá)式匹配,把空行、純數(shù)字行及帶有“-->”的行刪掉,然后再先回文本文件。
完成后的代碼如下:
# -*- coding: utf-8 -*-
# code=cp936
import string, re
title_txt = open('I://pursuit_for_happiness(ch).txt', 'r+')
try:
full_txt = title_txt.readlines()
regex1 = "/A/d*[/n]/Z"
regex2 = "/d --> /d"
#print full_txt
new_txt = []
for line in full_txt:
#print line
if re.match(regex1, line) or re.search(regex2, line):
#print "match", line
continue
else:
new_txt.append(line)
title_txt.seek(0)
title_txt.truncate(0)
#for line in full_txt:
# title_txt.writelines(line)
title_txt.writelines(new_txt)
finally:
title_txt.close()
print "Over"
過(guò)程中遇到一個(gè)問(wèn)題:
1、Python中沒(méi)辦法清空一個(gè)文件,亂看了一通,發(fā)現(xiàn)使用truncate()方法,傳入?yún)?shù)為0時(shí)可以搞定。
2、開(kāi)始的時(shí)候直接使用for遍歷list中的元素,匹配到就刪除,發(fā)現(xiàn)需要執(zhí)行多次腳本才能刪完,且有些還始終刪不掉,最后終于搞明白了:使用for i in list:時(shí),如果一匹配到就刪除,則此時(shí)list中的元素會(huì)改變,進(jìn)入循環(huán)的下一輪時(shí)不出問(wèn)題才怪。造孽,花了近一個(gè)小時(shí)才把這個(gè)問(wèn)題搞定了。于是重新定義了一個(gè)空鏈表new_txt,使用它來(lái)存儲(chǔ)我要的字幕,循環(huán)完成后把new_txt寫回文件。大功告成!
爽,拷到我的iTouch里,開(kāi)始學(xué)習(xí)英語(yǔ)了!
總結(jié)
以上是生活随笔為你收集整理的python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: JAVAWEB入门第一篇
- 下一篇: python中os模块_Python的武