當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

python怎么查看网页编码格式_怎么用python爬取网页文字？

發(fā)布時間：2023/12/4 综合教程 33 生活家

生活随笔收集整理的這篇文章主要介紹了 python怎么查看网页编码格式_怎么用python爬取网页文字？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

用Python進(jìn)行爬取網(wǎng)頁文字的代碼：#!/usr/bin/python#?-*- coding: UTF-8 -*-import requestsimport re#?下載一個網(wǎng)頁url =?'htt

用python進(jìn)行爬取網(wǎng)頁文字的代碼：

#!/usr/bin/python
#?-*-?coding:?UTF-8?-*-
import?requests
import?re
#?下載一個網(wǎng)頁
url?=?'https://www.biquge.tw/75_75273/3900155.html'
#?模擬瀏覽器發(fā)送http請求
response?=?requests.get(url)
#?編碼方式
response.encoding='utf-8'
#?目標(biāo)小說主頁的網(wǎng)頁源碼
html?=?response.text
print(html)

1、編寫爬蟲思路：

確定下載目標(biāo)，找到網(wǎng)頁，找到網(wǎng)頁中需要的內(nèi)容。對數(shù)據(jù)進(jìn)行處理。保存數(shù)據(jù)。

2、知識點(diǎn)說明：

1)確定網(wǎng)絡(luò)中需要的信息，打開網(wǎng)頁后使用F12打開開發(fā)者模式。
在Network中可以看到很多信息，我們在頁面上看到的文字信息都保存在一個html文件中。點(diǎn)擊文件后可以看到response，文字信息都包含在response中。
對于需要輸入的信息，可以使用ctrl+f，進(jìn)行搜索。查看信息前后包含哪些特定字段。
對于超鏈接的提取，可以使用**左邊的箭頭點(diǎn)擊超鏈接，這時Elements會打開有該條超鏈接的信息，從中判斷需要提取的信息。從下載小說來看，在目錄頁提取出小說的鏈接和章節(jié)名。

2)注意編碼格式

輸入字符集一定要設(shè)置成utf-8。頁面大多為GBK字符集。不設(shè)置會亂碼。

動力貓機(jī)器人教育專注于青少年STEAM教育、創(chuàng)客教育產(chǎn)品及課程體系的開發(fā)，為3-18歲學(xué)生提供全方位STEAM創(chuàng)客教育課程解決方案。
目前公司已取得多項(xiàng)發(fā)明專利、實(shí)用新型專利及多項(xiàng)軟件著作權(quán)專利，擁有上百種控制器、傳感器等電子模塊，近300種機(jī)械結(jié)構(gòu)件，兼容國內(nèi)外主流編程軟件，能夠?qū)崿F(xiàn)較為復(fù)雜的物聯(lián)網(wǎng)和人工智能項(xiàng)目的模型搭建，能充分滿足教學(xué)、比賽、創(chuàng)新創(chuàng)意等多種需求。
? ? ? 公司產(chǎn)品進(jìn)入了中國電子學(xué)會發(fā)起的“全國青少年機(jī)器人技術(shù)等級考試”準(zhǔn)用器材系列，自主研發(fā)軟件Scraino已經(jīng)寫入山東中小學(xué)三個版本的信息技術(shù)課本，在天津、河北、山東等地開展培訓(xùn)中心業(yè)務(wù)，為美國加州中小學(xué)課堂提供產(chǎn)品。
? ? ?動力貓課程依托自身強(qiáng)大的研發(fā)實(shí)力，軟硬件相結(jié)合，軟件方面擁有業(yè)界領(lǐng)先的 Scraino(具有自主產(chǎn)權(quán))圖形化編程軟件以及配套的電子件(各類傳感器及控制器等)；硬件采用硬件采用動力貓的idea-x積木，該積木具有多項(xiàng)國家發(fā)明專利，六面拼插，多方式組合，圍繞6-18歲適齡兒童在教具器材、編程平臺、評價機(jī)制及課程體系、技能等級評測、科技創(chuàng)意賽事等領(lǐng)域多元化搭建教育平臺。其 Scraino、Python 課程，不僅能編程，還能通過自主研發(fā)的 Nano 控制器，各類傳感器，實(shí)現(xiàn)機(jī)器人物聯(lián)網(wǎng)課程學(xué)習(xí)，搭建屬于自己的智慧機(jī)器人。

聲明：編輯此文是出于傳遞更多信息之目的。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本號聯(lián)系，我們將及時更正、刪除，謝謝。

總結(jié)

以上是生活随笔為你收集整理的python怎么查看网页编码格式_怎么用python爬取网页文字？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python操作excel_使用Pyth
下一篇：智源重大研究方向“智能体系架构与芯片”发

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

python怎么查看网页编码格式_怎么用python爬取网页文字？

總結(jié)