Python爬虫(七)_非结构化数据与结构化数据
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫(七)_非结构化数据与结构化数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
頁面解析與數據提取
實際上爬蟲一共就四個主要步驟:
以前學的就是如何從網站去爬數據,而爬下來的數據卻沒做分析,現在,就開始對數據做一些分析。
數據,可分為非結構化數據和結構化數據
- 非結構化數據:先有數據,再有結構
- 結構化數據:先有結構,再有數據
- 不同類型的數據,我們需要采用不同的方式來處理
非結構化的數據處理
文本、電話號碼、郵箱地址
- 正則表達式Python正則表達式
HTML文件
- 正則表達式
- XPath
- CSS選擇器
結構化的數據處理
JSON文件
- JSON Path
- 轉化為Python類型進行操作(json類)
XML文件
- 轉化為Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式
轉載于:https://www.cnblogs.com/moying-wq/p/11569914.html
總結
以上是生活随笔為你收集整理的Python爬虫(七)_非结构化数据与结构化数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python爬虫(六)_Requests
- 下一篇: Python爬虫(八)_正则表达式