日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫入门一综述

發布時間:2023/12/9 python 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫入门一综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網絡爬蟲是一種自動抓取萬維網信息的程序。
學習python爬蟲,需要學習以下知識:

  • python基礎
  • python中的urlliburllib2庫的用法
  • python正則表達式
  • python爬蟲框架scrapy
  • python爬蟲高級功能

1.python基礎

廖雪峰python教程

2.python urllib和urllib2庫使用

urllib 和 urllib2 庫是學習 Python 爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,并對內容用正則表達式提取分析,得到我們想要的結果。

3.python正則表達式

用來匹配文本內容

4.爬蟲框架scrapy

學習完基礎知識,進一步學習爬蟲框架。
scrapy的功能介紹:

HTML, XML 源數據 選擇及提取 的內置支持 提供了一系列在 spider 之間共享的可復用的過濾器 (即 Item Loaders),對智能處理爬取數據提供了內置支持。
通過 feed 導出 提供了多格式 (JSON、CSV、XML),多存儲后端 (FTP、S3、本地文件系統) 的內置支持 提供了 media pipeline,可以 自動下載 爬取到的數據中的圖片 (或者其他資源)。
高擴展性。您可以通過使用 signals ,設計好的 API (中間件,extensions, pipelines) 來定制實現您的功能。
內置的中間件及擴展為下列功能提供了支持: cookies and session 處理 HTTP 壓縮 HTTP 認證 HTTP 緩存 user-agent 模擬 robots.txt 爬取深度限制
針對非英語語系中不標準或者錯誤的編碼聲明,提供了自動檢測以及健壯的編碼支持。
支持根據模板生成爬蟲。在加速爬蟲創建的同時,保持在大型項目中的代碼更為一致。
詳細內容請參閱 genspider 命令。
針對多爬蟲下性能評估、失敗檢測,提供了可擴展的 狀態收集工具 。
提供 交互式 shell 終端,為您測試 XPath 表達式,編寫和調試爬蟲提供了極大的方便 提供 System service, 簡化在生產環境的部署及運行
內置 Web service, 使您可以監視及控制您的機器
內置 Telnet 終端 ,通過在 Scrapy 進程中鉤入 Python 終端,使您可以查看并且調試爬蟲 Logging 為您在爬取過程中捕捉錯誤提供了方便 支持 Sitemaps 爬取 具有緩存的 DNS 解析器

scrapy官方文檔
scrapy中文手冊

總結

以上是生活随笔為你收集整理的Python爬虫入门一综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。