當前位置：首頁 > 前端技术 > javascript >内容正文

javascript

Python实训day05pm【JS-DOM-获取元素节点对象、网络爬虫】

發布時間：2024/9/30 javascript 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python实训day05pm【JS-DOM-获取元素节点对象、网络爬虫】小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python實訓-15天-博客匯總表

1、CSS選擇器

2、網絡爬蟲

2.1、練習1

2.2、練習2

1、CSS選擇器

.rank-body .book-mid-info .author a:nth-child(4)

Css選擇器? ?? ?css\js\python\...
? ? 定位頁面元素：
? ? ? ? css--->樣式
? ? ? ? js-->操作元素
? ? ? ? python-->操作元素

class\id\標簽【必須】
? ? .d1
? ? #d1
? ? div
各種選擇器之間的組合【必須】
? ? div .d1 : ?div中的所有.d1（層級）
? ? div.d1 ?: ?class屬性的值為d1的那些div（并列）
? ? div>d1 ?: ?div中所有的直接子元素.d1（直接層級）

偽類選擇器【了解+會查詢】
? ? :first-child
? ? :last-child
? ? :nth-child()
? ? :hover :active
? ? 等等
偽元素【了解+會查詢】等等

2、網絡爬蟲

2.1、練習1

1.擴展，爬取前100條數據
2.統計，在前100中，哪個類型的小說的數量最多，有多少?（下午的課堂來講解）

# 1.擴展，爬取前100條數據 # 2.統計，在前100中，哪個類型的小說的數量最多，有多少?（下午的課堂來講解）import requests from bs4 import BeautifulSoup as BS# 偽裝成瀏覽器 hds = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}bookinfos = {}; # mapfor i in range(5):resp = requests.get('https://www.qidian.com/rank/yuepiao/year2022-month01-page{}/'.format(i + 1), headers=hds);ct = resp.content.decode('utf-8');bs = BS(ct, 'lxml');names = bs.select('.rank-body .book-mid-info h2 a');types = bs.select('.rank-body .book-mid-info .author a:nth-child(4)');# 定位元素后，要么就是獲取屬性值-->['屬性名']，要么就是獲取元素內容-->.get_text()。for i in range(20):name = names[i];tp = types[i];bookinfos[name.get_text()] = tp.get_text();print(len(bookinfos)) # 100 print(bookinfos) # {'星門': '玄幻', '明克街13號': '都市', '大魏讀書人': '仙俠', ...}''' 統計，在前100中，哪個類型的小說的數量最多，有多少？（重中之重）基礎是否扎實--->@1、對各種數據(結構)的操作是否熟練：字符串、集合、map、對象等@2、對面向對象的理解是否到位：封裝、繼承、多態、接口、構造、重寫、重載等@3、對高級用法是否了解：IO、異常、多線程、反射、注解、枚舉等@4、數據庫的使用：單表多表的查詢、內連接與外連接、分組與函數、事務處理@5、Servlet/jsp：Web流程的理解是否準確到位（提升）框架階段【勢如破竹 ---> 2周左右，吃透】（高薪突破）企業技術階段【高并發，高性能高可用---->學習各種中間件的使用】 '''# 1、取出所有的類型（取值） # print(dir(bookinfos)) # 查看方法['__class__', ... ]vs = list(bookinfos.values()); print(vs) # ['玄幻', '都市', '仙俠', '科幻', '都市', '輕小說', '玄幻', '輕小說', ...]# 有哪些不同的類型？ # list-->set：自動去重 # python中有set嗎？有！ notsame = set(vs); # 所有的不重復的類型# 2、遍歷，計算每個類型出現的次數。 tj = {}; # 類型：次數(tj：統計) for v in notsame:tj[v] = vs.count(v); # count求v在vs集合中出現的次數ls = list(tj.items()); # [(鍵,值),(),(),()] ls.sort(key=lambda x: x[1], reverse=True) print(ls) # [('都市', 19), ('仙俠', 18), ('歷史', 15), ('輕小說', 15), ('玄幻', 13), ...]

2.2、練習2

將某個（星門）小說按照章節下載到.txt文件中【下載免費部分】
思路（步驟）：
1.請求小說目錄，找到每個章節的超鏈接地址。
2.請求每個章節地址，獲取章節內容，寫入到txt文件中。

''' 將某個（星門）小說按照章節下載到.txt文件中【下載免費部分】思路（步驟）： 1.請求小說目錄，找到每個章節的超鏈接地址 2.請求每個章節地址，獲取章節內容，寫入到txt文件中 ''' import requests from bs4 import BeautifulSoup as BS# 偽裝成瀏覽器 hds = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}# 小說首頁路徑 url = 'https://book.qidian.com/info/1027669580/#Catalog';resp = requests.get(url, headers=hds);ct = resp.content.decode('utf-8');# print(ct) print(ct.index('李家的劍')) # 19156 找到了，說明爬取到的html中包含我們想要的內容；使用BeautifulSoup解析即可bs = BS(ct, 'lxml'); sa = bs.select('.volume-wrap .volume:first-child .book_name a'); #:nth-child(1)zjinfo = {}; # 名稱：url地址for a in sa:zjinfo[a.get_text()] = 'https:' + a['href'];# print(zjinfo)# 2、請求每個章節地址，獲取章節內容，寫入到txt文件中 # 做個demo：請求第一章的內容，保存到txt文件中u2 = 'https://read.qidian.com/chapter/Bo4cJRb-5zhY1sEsPcaxkg2/LH6CZhsVBjDgn4SMoDUcDQ2/'; resp = requests.get(u2, headers=hds); ct = resp.content.decode('utf-8'); print(ct.index('純凈的笑容')) # 19318 可以使用BS解析，獲取想要的內容 # print(ct)bs = BS(ct, 'lxml'); sps = bs.select('.main-text-wrap .read-content p'); # 通過打印ct，再次確認元素選擇器結構 print(len(sps)); # 89：89個自然段的內容cts = [];# 遍歷，獲取每一個內容，放入到cts中 for p in sps:cts.append(p.get_text());print(cts); # ['\u3000\u3000\u3000\u3000銀城。', ...]# 寫入文件 f = open(r'C:\Users\lwx\Desktop\星門\{}'.format('第一章巡檢司.txt'), 'w'); f.write('\n'.join(cts)); # 將cts中所有字符串拼接，使用\n換行，間隔 f.close();

先五倫，后八德。人倫大道以此分。
君臣義，父子親。君正臣忠護國心。
為人子，孝雙親。父慈子奉父子親。
夫婦情，盡責任。妻賢夫愛情誼深。
兄弟序，長幼分。兄寬弟忍哥們親。
朋友信，友情真。不論貧富視同仁。
孝為首，萬善源。百善孝順第一先。
生命體，父母賜。不孝敬老畜不如。
萬寶失，可再得。萬金難買父母身。
講明理，兄弟情。同氣連枝一母生。
忠字義，為誠心。天地人倫無假心。
信字解，人言誠。言而有信君子風。
禮為敬，待人先。非禮勿為敬為先。
義字理，合正道。正義善為無禍端。
廉字解，主清白。端端正正不貪財。
恥字義，須解開。知恥羞惡善德懷。
為人道，謹記懷。五倫八道永記懷。

總結

以上是生活随笔為你收集整理的Python实训day05pm【JS-DOM-获取元素节点对象、网络爬虫】的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python实训day05am【正则表达
下一篇： Spring-学习笔记02【程序间耦合】

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

javascript

Python实训day05pm【JS-DOM-获取元素节点对象、网络爬虫】

1、CSS選擇器

2、網絡爬蟲

2.1、練習1

2.2、練習2

總結