我的第一个爬虫
#!/usr/bin/env python
# _*_ coding:utf8 _*_
import requests
import re
#設置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"
#用requests.get方法請求數據
response = requests.get(url)
#將頁面的數據制定編碼設置為gbk方式。
response.encoding = 'gbk'
#定義html用作接收response的返回結果(原網頁的html代碼)
html = response.text
#通過正則表達式對網頁的html代碼進行過濾。
a = re.findall(r'引用買大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#數據清洗 將a中的<br />標簽進行過濾 如果匹配的字符串中有元字符則需要添加\進行轉義例如:() 則需要寫成a.replace('\(\)','')
b = a.replace('<br />','')
#通過正則表達式進行再過濾。 \d表示以數字開頭 該句為以數字開頭以句號結尾
c = re.findall(r'\d.*?。',a)
#循環將其輸出
for i in c:
print(i)
輸出結果:
C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、風蕭蕭兮易水寒,壯士一去兮不復返。
2、一身轉戰三千里,一劍曾擋百萬師。
3、我本楚狂人,鳳歌笑孔丘。
4、醉里挑燈看劍,夢回吹角連營。
5、莫遣只輪回???#xff0c;仍留一箭在天山。
6、君不見,高陽酒徒起草中,長揖山東隆準公。
7、獨倚危樓,不信人間別有愁。
8、寧做真小人,不做偽君子。
9、東風吹醒英雄夢,笑對青山萬重天。
10、馬車幽靈影,瀟灑一郎君。
11、一門七進士,父子三探花。
12、君子死知己,提劍出燕京。
Process finished with exit code 0
# _*_ coding:utf8 _*_
import requests
import re
#設置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"
#用requests.get方法請求數據
response = requests.get(url)
#將頁面的數據制定編碼設置為gbk方式。
response.encoding = 'gbk'
#定義html用作接收response的返回結果(原網頁的html代碼)
html = response.text
#通過正則表達式對網頁的html代碼進行過濾。
a = re.findall(r'引用買大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#數據清洗 將a中的<br />標簽進行過濾 如果匹配的字符串中有元字符則需要添加\進行轉義例如:() 則需要寫成a.replace('\(\)','')
b = a.replace('<br />','')
#通過正則表達式進行再過濾。 \d表示以數字開頭 該句為以數字開頭以句號結尾
c = re.findall(r'\d.*?。',a)
#循環將其輸出
for i in c:
print(i)
輸出結果:
C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、風蕭蕭兮易水寒,壯士一去兮不復返。
2、一身轉戰三千里,一劍曾擋百萬師。
3、我本楚狂人,鳳歌笑孔丘。
4、醉里挑燈看劍,夢回吹角連營。
5、莫遣只輪回???#xff0c;仍留一箭在天山。
6、君不見,高陽酒徒起草中,長揖山東隆準公。
7、獨倚危樓,不信人間別有愁。
8、寧做真小人,不做偽君子。
9、東風吹醒英雄夢,笑對青山萬重天。
10、馬車幽靈影,瀟灑一郎君。
11、一門七進士,父子三探花。
12、君子死知己,提劍出燕京。
Process finished with exit code 0
?
?
轉載于:https://www.cnblogs.com/shiguangliangchunshanbo/p/9535153.html
總結
- 上一篇: UI组件-UITabbarControl
- 下一篇: 机器人中的轨迹规划(Trajectory