日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬虫批量下载美剧 from 人人影视 HR-HDTV

發布時間:2023/12/29 python 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫批量下载美剧 from 人人影视 HR-HDTV 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本人比較喜歡看美劇。尤其喜歡人人影視上HR-HDTV 的 1024 分辨率的高清雙字美劇,這里寫了一個腳本來批量獲得指定美劇的全部 HR-HDTV 的 ed2k下載鏈接。并依照先后順序寫入到文本文件,供下載工具進行批量下載。比方用迅雷。先打開迅雷,然后復制全部下載鏈接到剪切板,迅雷會監視剪切板來新建全部任務。假設迅雷沒有自己主動監視,能夠自己點擊新建然后粘貼鏈接。Python源碼例如以下。用的是Python3 :

# python3 實現,以下的實例 3 部美劇爬完大概要 10 s import urllib.request import redef get_links(url, name='yyets'):data = urllib.request.urlopen(url).read().decode()pattern = '"(ed2k://\|file\|[^"]+?\.(S\d+)(E\d+)[^"]+?

1024X\d{3}[^"]+?)"' linksfind = set(re.findall(pattern, data)) linksdict = {} total = len(linksfind) for i in linksfind: linksdict[int(i[1][1:3]) * 100 + int(i[2][1:3])] = i with open(name + '.txt', 'w') as f: for i in sorted(list(linksdict.keys())): f.write(linksdict[i][0] + '\n') print(linksdict[i][0]) print("Get download links of: ", name, str(total)) if __name__ == '__main__': #---------- 越獄、無恥之徒、權力的游戲--------------------------- get_links('http://www.yyets.com/resource/10004', 'prision_break') get_links('http://www.yyets.com/resource/10760', 'shameless') get_links('http://www.yyets.com/resource/d10733','Game_of_Thrones') print('All is okay!')

這個 python 爬蟲比較短,就用到了 urllib.request 和 re 這兩個模塊,前者負責抓取網頁,后者負責解析文本。

人人影視并沒有限制爬蟲訪問。所以這里無需改動 HTTP head的?User-Agent ,對于某些屏蔽爬蟲的網頁,就須要改動下?User-Agent ?這個值了。一個做法例如以下:用?urllib.request 中?Request 類的構造函數構造一個?Request 對象,構造函數中給自己給 headers (字典)中 User-Agent 屬性 賦值,然后將這個對象傳入到本模塊的 urlopen() 中。就能夠將爬蟲偽裝成一個瀏覽器進行網頁抓取了。比方。CSDN 就是屏蔽了爬蟲的。須要改動一下 User-Agent 的值,例如以下:

import urllib.requesturl = 'http://blog.csdn.net/csdn' head={'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)'} req = urllib.request.Request(url, headers=head) data = urllib.request.urlopen(req, timeout=2).read().decode() print(data)

抓取完網頁就是對 HTML 文檔的解析了。這里使用的是正則表達式模塊,對于特定單一的內容很方便。假設須要較復雜的解析能夠用?pyquery?或者?Beautiful Soup, 它們是用Python寫的 HTML/XML 的解析器。當中?pyquery 是 jquery 風格,更加的好用

關于正則表達式這里推薦一個工具 RegexBuddy ,擁有強大的正則表達式調試功能,上面腳本中的正則表達式就使用了這個工具進行調試。這篇關于Python正則的博文非常不錯:?Python 正則表達式指南。

想進一步加強爬蟲的功能,能夠用爬蟲框架 Scrapy,這是 Scrapy 的官方tutoria?。還有就是,假設網頁內容多是 javascript 生成。那么就須要一個 js 引擎了,PyV8 能夠拿來試試,再有就是基于 js 做爬蟲。如用?casperJS 和 phantomJS.

【地址:http://blog.csdn.net/thisinnocence/article/details/39997883】


轉載于:https://www.cnblogs.com/wzzkaifa/p/6749343.html

總結

以上是生活随笔為你收集整理的Python 爬虫批量下载美剧 from 人人影视 HR-HDTV的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久综合婷婷国产二区高清 | 在线观看国产区 | 亚洲Av无码成人精品区伊人 | 亚洲一区精品在线 | 奇米影视亚洲春色 | 日韩精品视频在线观看免费 | 国产色91 | 亚洲精品乱码久久久久久蜜桃不卡 | 欧美成人精精品一区二区频 | jvid在线 | 国产在线观看免费av | 精国产人伦一区二区三区 | 国产精品污视频 | 国产一区二区成人 | 亚洲一二三不卡 | 美女啪啪网址 | 中国成熟妇女毛茸茸 | av资源首页| 欧美激情片一区二区 | 久久久久激情 | 欧美乱淫视频 | 91在线视频国产 | 第一页在线 | 午夜av电影在线观看 | 色婷婷国产精品综合在线观看 | 96日本xxxxxⅹxxx70| 成年人免费在线观看 | 亚洲精品二 | 欧美人与禽猛交乱配 | 国产精品jizz在线观看无码 | 亚洲中文字幕无码av永久 | 美女狂揉羞羞的视频 | 久久久嫩草 | 春物催眠| 99热久| 亚洲成人激情视频 | 男女插插插网站 | 成人一级片 | 伊人中文字幕在线 | 亚洲无码乱码精品国产 | 国产男男chinese网站 | 另类少妇人与禽zozz0性伦 | 精品国产一区二区三区久久狼黑人 | 国产一级视频 | 欧美网站在线 | 美女被娇喘流出白 | 青青在线视频观看 | 天天爱天天草 | 中文字幕一区二区三区在线播放 | 国产卡一卡二卡三无线乱码新区 | 免费污片网站 | 中文字幕高清视频 | 夜夜夜综合 | 美女日日日 | 黄色尤物视频 | 乱图区 | 国产高清99 | 成年人黄国产 | 精品中文一区二区三区 | 麻豆免费av| 国产精品电影 | 36d大奶 | av中文资源在线 | 欧美一级片免费观看 | 日韩免费一区二区三区 | 乱淫的女高中暑假调教h | 深夜视频在线免费 | 亚洲一区二区三区四区五区xx | 中文字幕黄色片 | 户外露出一区二区三区 | 精品一区二区三区四区五区 | 精人妻无码一区二区三区 | 深夜精品福利 | 国产99久 | 婷婷成人综合网 | 精品二区在线观看 | 欧美xxxx黑人又粗又长密月 | 一区二区三区日韩精品 | 国产第56页 | 久热这里只有精品在线 | 深夜福利一区二区三区 | 人人干人人干人人干 | 国产一级二级三级 | 婷婷综合在线视频 | 中文字幕av二区 | 三年大片在线观看 | chinesepron hd videos国产91 | 免费公开在线视频 | 综合热久久 | 国产精品人人做人人爽 | 欧美一二三区 | 精品国产第一页 | 日本黄色的视频 | 午夜激情福利 | 求av网站| 亚洲av无码专区在线电影 | 午夜视频成人 | 伊人色播 | 成人免费毛片观看 |