日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

【Python基础】这个Pandas函数可以自动爬取Web图表

發布時間:2025/3/12 python 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Python基础】这个Pandas函数可以自动爬取Web图表 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Pandas作為數據科學領域鰲頭獨占的利器,有著豐富多樣的函數,能實現各種意想不到的功能。

作為學習者沒辦法一次性掌握Pandas所有的方法,需要慢慢積累,多看多練。

這次為大家介紹一個非常實用且神奇的函數-read_html(),它可免去寫爬蟲的煩惱,自動幫你抓取靜態網頁中的表格。

簡單用法:pandas.read_html(url)

主要參數:

  • io:接收網址、文件、字符串

  • header:指定列名所在的行

  • encoding:The encoding used to decode the web page

  • attrs:傳遞一個字典,用其中的屬性篩選出特定的表格

只需要傳入url,就可以抓取網頁中的所有表格,抓取表格后存到列表,列表中的每一個表格都是dataframe格式。

我們先簡單抓取天天基金網的基金凈值表格,目標url:http://fund.eastmoney.com/fund.html

可以看到上面html里是table表格數據,剛好適合抓取。

import?pandas?as?pd url?=?"http://fund.eastmoney.com/fund.html" data?=?pd.read_html(url,attrs?=?{'id':?'oTable'}) #?查看表格數量 tablenum?=?len(data) print(tablenum)

輸出:1

通過'id': 'oTable'的篩選后,只有一個表格,我們直接爬取到了基金凈值表。

data[1]

但這里只爬取了第一頁的數據表,因為天天基金網基金凈值數據每一頁的url是相同的,所以read_html()函數無法獲取其他頁的表格,這可能運用了ajax動態加載技術來防止爬蟲。

?

一般來說,一個爬蟲對象的數據一次展現不完全時,就要多次展示,網站的處理辦法有兩種:

1、下一個頁面的url和上一個頁面的url不同,即每個頁面的url是不同的,一般是是序號累加,處理方法是將所有的html頁面下載至本地,從而拿到所有數據;(天天基金網顯示不是這種類型) 2、下一個頁面的url和上一個頁面的url相同,即展示所有數據的url是一樣的,這樣的話網頁上一般會有“下一頁”或“輸入框”與“確認”按鈕,處理方法是將代碼中觸發“下一頁”或“輸入框”與“確認”按鈕點擊事件來實現翻頁,從而拿到所有數據。(天天基金網是這種類型)

?

剛只是簡單地使用了read_html()獲取web表格的功能,它還有更加復雜的用法,需要了解其參數含義。

詳細用法

pandas.read_html( io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

詳細參數

「io:」 str, path object 或 file-like objectURL,file-like對象或包含HTML的原始字符串。請注意,lxml僅接受http,ftp和文件url協議。如果您的網址以'https'您可以嘗試刪除's'。
「match:」 str 或 compiled regular expression, 可選參數將返回包含與該正則表達式或字符串匹配的文本的表集。除非HTML非常簡單,否則您可能需要在此處傳遞非空字符串。默認為“。+”(匹配任何非空字符串)。默認值將返回頁面上包含的所有表。此值轉換為正則表達式,以便Beautiful Soup和lxml之間具有一致的行為。
「flavor:」 str 或 None要使用的解析引擎。‘bs4’和‘html5lib’彼此同義,它們都是為了向后兼容。默認值None嘗試使用lxml解析,如果失敗,它會重新出現bs4+html5lib。
「header:」 int 或 list-like 或 None, 可選參數該行(或MultiIndex)用于創建列標題。
「index_col:」 int 或 list-like 或 None, 可選參數用于創建索引的列(或列列表)。
「skiprows:」 int 或 list-like 或 slice 或 None, 可選參數解析列整數后要跳過的行數。從0開始。如果給出整數序列或切片,將跳過該序列索引的行。請注意,單個元素序列的意思是“跳過第n行”,而整數的意思是“跳過n行”。
「attrs:」 dict 或 None, 可選參數這是屬性的詞典,您可以傳遞該屬性以用于標識HTML中的表。在傳遞給lxml或Beautiful Soup之前,不會檢查它們的有效性。但是,這些屬性必須是有效的HTML表屬性才能正常工作。例如, attrs = {'id': 'table'} 是有效的屬性字典,因為‘id’ HTML標記屬性是任何HTML標記的有效HTML屬性,這個文件。attrs = {'asdf': 'table'} 不是有效的屬性字典,因為‘asdf’即使是有效的XML屬性,也不是有效的HTML屬性。可以找到有效的HTML 4.01表屬性這里。可以找到HTML 5規范的工作草案這里。它包含有關現代Web表屬性的最新信息。
「parse_dates:」 bool, 可選參數參考read_csv()更多細節。
「thousands:」 str, 可選參數用來解析成千上萬個分隔符。默認為','。
「encoding:」 str 或 None, 可選參數用于解碼網頁的編碼。默認為NoneNone保留先前的編碼行為,這取決于基礎解析器庫(例如,解析器庫將嘗試使用文檔提供的編碼)。
「decimal:」 str, 默認為 ‘.’可以識別為小數點的字符(例如,對于歐洲數據,請使用“,”)。
「converters:」 dict, 默認為 None用于在某些列中轉換值的函數的字典。鍵可以是整數或列標簽,值是采用一個輸入參數,單元格(而非列)內容并返回轉換后內容的函數。
「na_values:」 iterable, 默認為 None自定義NA值。
「keep_default_na:」 bool, 默認為 True如果指定了na_values并且keep_default_na為False,則默認的NaN值將被覆蓋,否則將附加它們。
「displayed_only:」 bool, 默認為 True是否應解析具有“display:none”的元素。

最后, read_html() 僅支持靜態網頁解析,你可以通過其他方法獲取動態頁面加載后response.text 傳入 read_html() 再獲取表格數據。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 本站知識星球“黃博的機器學習圈子”(92416895) 本站qq群704220115。 加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【Python基础】这个Pandas函数可以自动爬取Web图表的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: jizz日本免费 | 特级av | 久久久久香蕉视频 | 日p免费视频| 超碰三级 | 久久精品播放 | 美女日批在线观看 | 免费成人av在线播放 | 性欧美在线观看 | 中文av一区| 亚洲女人天堂成人av在线 | 全黄一级裸片视频 | 99视频国产精品免费观看a | 夜夜嗨av一区二区三区网页 | 国产片免费 | 91国产在线免费观看 | 亚洲第一在线视频 | 污视频在线| 91九色蝌蚪 | 青青操原 | 国产偷人 | 午夜丁香婷婷 | 99爱在线观看 | 中文永久免费观看 | 中文在线一区 | 大桥未久在线视频 | av无毛| 欧美一区二区免费电影 | 免费国产成人 | 日韩一区二区视频在线观看 | 国产做爰免费观看 | 成人午夜激情 | 800av凹凸| 国产日韩亚洲欧美 | а√在线中文网新版地址在线 | 午夜一区二区三区免费 | 91久久综合亚洲鲁鲁五月天 | 免费一级毛片麻豆精品 | 亚洲久操 | 国产精品3区 | 国产色无码精品视频国产 | 日本在线网站 | 国产在线拍揄自揄拍 | 黄网av| 熟女少妇内射日韩亚洲 | 久久久久99人妻一区二区三区 | 另类小说婷婷 | 尤物网在线 | 天天草比 | 欧美片免费网站 | 日韩午夜伦| 日本 欧美 国产 | 在线观看av一区 | 夜夜操网 | 色综合久久久无码中文字幕波多 | 日本免费一区二区三区视频 | 日韩中文视频 | 中文字幕日韩一区二区三区不卡 | 国产福利视频 | av免费观看网址 | 日韩av在线网 | 日韩精品一区二区三区 | 久久国产精品精品国产色婷婷 | 亚洲一区二区自拍偷拍 | 国产丝袜久久 | 伊人久久影视 | 小柔好湿好紧太爽了国产网址 | yjizz视频网 国产乱人对白 | 欧洲美一区二区三区亚洲 | 蜜臀尤物一区二区三区直播 | 四虎在线看片 | 99久久久久无码国产精品 | 日本学生初尝黑人巨免费视频 | 婷婷爱五月天 | 国产精品二区一区二区aⅴ污介绍 | 精产国品一二三产区m553麻豆 | 伊人精品一区二区三区 | 国产日韩欧美一区二区东京热 | 亚洲爽爽网 | 无码h肉动漫在线观看 | 爱射网| 久久久久久a | 国产香蕉视频在线 | 影音先锋亚洲一区 | 四虎色 | 精品裸体舞一区二区三区 | 国精产品一区一区三区免费视频 | 成人av小说 | 亚洲免费黄色网 | 国产精品无码一区二区三区免费 | 国产又大又黄视频 | www.爱操 | 草草影院国产第一页 | 国产精品美女主播 | 一级特黄欧美 | 视频一区二区在线播放 | 91麻豆精品国产91 | 亚洲v国产v| 日韩女优在线播放 |