日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python3.8爬虫_python爬虫系列(3.8-正则的使用)

發(fā)布時(shí)間:2025/3/12 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3.8爬虫_python爬虫系列(3.8-正则的使用) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、需要系統(tǒng)的學(xué)習(xí)正則表達(dá)式

1、元字符

1..:除了\n以外的任意字符

2.*:出現(xiàn)0到多次

3.?:出現(xiàn)0或者1次

4.+:表示出現(xiàn)1到多次

2、常用的方法

1.compile:表示生成正則表達(dá)式參考地址

2.findall:查找全部注意返回的是一個(gè)列表參考地址

import re

import requests

class GuShiWen(object):

def __init__(self):

self.headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36',

}

def get_html(self):

"""

抓取古詩(shī)文第一頁(yè)內(nèi)容

:return:

"""

response = requests.get(url=self.url, headers=self.headers)

if response.status_code == 200:

gusiwen_list = []

params = re.compile('.*?(

', re.S)

article_list = params.findall(response.text)

for article in article_list:

gusiwen_dict = {}

title = re.compile('.*?(.*)', re.S).findall(article)[0]

content = re.compile('.*?

(.*?)', re.S).findall(article)[0].strip().replace('
', '')

gusiwen_dict['title'] = title

gusiwen_dict['content'] = content

gusiwen_list.append(gusiwen_dict)

print(gusiwen_list)

return

print('請(qǐng)求錯(cuò)誤')

if __name__ == "__main__":

gusiwen = GuShiWen()

gusiwen.get_html()

1、基本上是使用findall方法

2、主要是網(wǎng)頁(yè)多行字符要使用re.S

3、如果正則比較復(fù)雜的時(shí)候使用re.compile()對(duì)正則包裝下

總結(jié)

以上是生活随笔為你收集整理的python3.8爬虫_python爬虫系列(3.8-正则的使用)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。