5行Python提取海量新闻网站内容
生活随笔
收集整理的這篇文章主要介紹了
5行Python提取海量新闻网站内容
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
目錄
1、安裝模塊
2、提取網(wǎng)頁內(nèi)容
本篇博客又雙叒叕為各位分享一個Python庫:GeneralNewsExtractor(GNE),其是一個通用新聞網(wǎng)站正文抽取模塊,輸入一篇新聞網(wǎng)頁的 HTML, 輸出正文內(nèi)容、標(biāo)題、作者、發(fā)布時間、正文中的圖片地址和正文所在的標(biāo)簽源代碼。GNE在提取今日頭條、網(wǎng)易新聞、游民星空、 觀察者網(wǎng)、鳳凰網(wǎng)、騰訊新聞、ReadHub、新浪新聞等數(shù)百個中文新聞網(wǎng)站上效果非常出色,幾乎能夠達到100%的準(zhǔn)確率。
需要明白:GeneralNewsExtractor(GNE)不是 爬蟲 ,是為了規(guī)避不必要的風(fēng)險,因此,本項目的輸入是 HTML源代碼,輸出是一個字典,請自行使用恰當(dāng)?shù)姆椒ǐ@取目標(biāo)網(wǎng)站的 HTML。
總結(jié)
以上是生活随笔為你收集整理的5行Python提取海量新闻网站内容的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物联网设备天线设计与选型指南
- 下一篇: Python+OpenCV图像处理实验