日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Request爬取网站(seo.chinaz.com)百度权重的查询结果

發(fā)布時(shí)間:2025/3/20 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Request爬取网站(seo.chinaz.com)百度权重的查询结果 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一:腳本需求

利用Python3查詢網(wǎng)站權(quán)重并自動(dòng)存儲(chǔ)在本地?cái)?shù)據(jù)庫(Mysql數(shù)據(jù)庫)中,同時(shí)導(dǎo)出一份網(wǎng)站權(quán)重查詢結(jié)果的EXCEL表格

數(shù)據(jù)庫類型:MySql

數(shù)據(jù)庫表單名稱:website_weight

表單內(nèi)容及表頭設(shè)置:表頭包含有id、main_url(即要查詢的網(wǎng)站)、website_weight(網(wǎng)站權(quán)重)

?

要查詢的網(wǎng)站:EXCEL表格

二:需求實(shí)現(xiàn)

一:利用openpyxl模塊解析excel文件,將查詢的網(wǎng)站讀取到一個(gè)列表中保存

# 解析excel文件,取出所有的url def get_urls(file_path):wb = load_workbook(file_path)sheet = wb.activeurls = []for cell in list(sheet.columns)[1]:if cell != sheet['B1']:urls.append(cell.value)return wb, urls

二:分析請(qǐng)求發(fā)送,偽造請(qǐng)求,取得HTML頁面

# 偽造請(qǐng)求,取得html頁面 def get_html(url):# 定義http的請(qǐng)求Headerheaders = {} # random.randint(1,99) 為了生成1到99之間的隨機(jī)數(shù),讓UserAgent變的不同。 headers['User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(random.randint(1, 99))# Referer地址使用待查詢的網(wǎng)址headers['Referer'] = "http://seo.chinaz.com/" + url + "/"html = ''try:html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).textexcept Exception:passreturn html

三:分析HTML頁面,利用BeautifulSoup模塊提取數(shù)據(jù)

# 利用BeautifulSoup模塊從html頁面中提取數(shù)據(jù) def get_data(html, url):if not html:return url, 0soup = bs(html, "lxml")p_tag = soup.select("p.ReLImgCenter")[0]src = p_tag.img.attrs["src"]regexp = re.compile(r'^http:.*?(\d).gif')br = regexp.findall(src)[0]return url, br

四:數(shù)據(jù)庫連接配置,并獲取游標(biāo)

# 連接數(shù)據(jù)庫 def get_connect():conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='root',db='seotest',charset="utf8")# 獲取游標(biāo)對(duì)象cursor = conn.cursor()return conn, cursor

五:主程序邏輯編寫

if __name__ == "__main__":#命令行執(zhí)行腳本文件,獲取excel文件路徑file_path = sys.argv[1]#獲取URL列表和excle工作簿wb, urls = get_urls(file_path)#獲取數(shù)據(jù)庫連接和游標(biāo)conn, cursor = get_connect()#獲取工作簿當(dāng)前工作sheetsheet = wb.active#數(shù)據(jù)庫插入語句sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''for row, url in enumerate(urls):if not url: continuehtml = get_html(url)data = get_data(html, url)# 插入數(shù)據(jù)到數(shù)據(jù)庫 cursor.execute(sql_insert, data)# 插入數(shù)據(jù)到Excel表中cell = sheet.cell(row=row + 2, column=3)cell.value = data[1]# 終端打印插入的數(shù)據(jù)print(data)conn.commit()conn.close()wb.save(file_path)wb.close()# cmd命令:python3 F:\算法與結(jié)構(gòu)\網(wǎng)站權(quán)重.py F:\website.xlsx

三:腳本運(yùn)行及其實(shí)現(xiàn)結(jié)果

CMD執(zhí)行

數(shù)據(jù)庫:

excel文件寫入:

?

轉(zhuǎn)載于:https://www.cnblogs.com/li1992/p/9863056.html

總結(jié)

以上是生活随笔為你收集整理的Request爬取网站(seo.chinaz.com)百度权重的查询结果的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。