日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子

發(fā)布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對量化投資策略進(jìn)行研究,第一步就是獲取我們需要的數(shù)據(jù)。使用歷史數(shù)據(jù)能夠?qū)Σ呗赃M(jìn)行回測,以驗證策略的有效性和可信性。另一方面,量化投資本身也是一種對數(shù)據(jù)的研究,因此它也必須遵循數(shù)據(jù)分析的相關(guān)步驟。作為一個業(yè)余的量化投資愛好者,免費的數(shù)據(jù)來源主要有以下幾種途徑:

  • Yahoo、Sina 財經(jīng)的API
  • Python的Tushare包
  • 自己手工爬取

Tushare是一個免費、開源的Python財經(jīng)數(shù)據(jù)接口包,它對數(shù)據(jù)進(jìn)行了規(guī)整因此使用起來非常方便。盡管有如此優(yōu)秀的數(shù)據(jù)包簡化了數(shù)據(jù)的采集工作,我們依然需要掌握從網(wǎng)站上爬取數(shù)據(jù)的技能,以獲取接口沒有提供的數(shù)據(jù)。本篇文章將會介紹一個小爬蟲,告訴大家如何從網(wǎng)站上獲取所有股票的代碼和名稱。

Python的urllib2庫是爬蟲的基礎(chǔ),使用urllib2庫可以獲取網(wǎng)頁的內(nèi)容,再使用正則表達(dá)式對所需的內(nèi)容進(jìn)行提取。我們在東方財富網(wǎng)的stocklist頁面下對股票的代碼和名字進(jìn)行爬取,若要獲取該網(wǎng)頁下的全部內(nèi)容,則需要以下幾步:

  • 對服務(wù)器發(fā)送一個請求,使用urllib2的Request方法返回reguest對象
  • 采用urlopen方法處理構(gòu)建的request對象,返回服務(wù)器的應(yīng)答(response對象)
  • 對response對象使用read方法,返回網(wǎng)頁的內(nèi)容
request

一些網(wǎng)站不允許程序直接采用上面的方式進(jìn)行訪問,因此需要通過程序模擬瀏覽器的行為。通常采用的技術(shù)是在Requset方法的headers參數(shù)中設(shè)置agent,這樣服務(wù)器認(rèn)為是瀏覽器發(fā)出的請求就可以正常respose。

url

在進(jìn)行網(wǎng)頁內(nèi)容的讀取過程中,會遇到這樣或那樣的原因?qū)е庐惓J沟米x取不成功,可以使用try-except捕獲相應(yīng)的異常。

try


以上就是獲取網(wǎng)頁Html的過程,下面就需要在這茫茫Html中獲取我們需要的東西。這個時候需要用到正則表達(dá)式對需要的內(nèi)容進(jìn)行匹配。

上圖中藍(lán)色標(biāo)出的部分是我們需要的股票名稱和代碼,采取以下正則表達(dá)式可以獲取需要的內(nèi)容。正則表達(dá)式的寫法不是唯一的,但需要保證使用該正則不會出現(xiàn)遺漏或多匹配出不需要的其他信息的情況。如果你對正則表達(dá)式不太熟悉也沒有關(guān)系,Python提供了Beautiful Soup工具能夠更為簡單地提起Html或者Xml中的內(nèi)容。

pattern

采用findall方法返回的是一個List,我們可以將爬取的結(jié)果放在一個名為stocklist的txt文件中。

reload

當(dāng)然,更好的結(jié)果儲存方式是將結(jié)果放在數(shù)據(jù)庫中,下面就是以sqllite數(shù)據(jù)庫為例進(jìn)行了一個爬取結(jié)果的儲存。將爬取結(jié)果放在數(shù)據(jù)庫中能夠方便調(diào)用,并且可以設(shè)置shell任務(wù)做定時的爬取和更新。

conn

以下是完整的代碼,供大家參考。

#coding:utf-8

好了,如何從網(wǎng)站上爬取我們需要的數(shù)據(jù)就介紹到這里。Python有著更為強大的爬蟲框架Scrapy,有興趣的同學(xué)可以學(xué)習(xí)一下。關(guān)于本次小爬蟲的全部代碼,可以關(guān)注我的微信公眾號,以后會有更多關(guān)于量化的原創(chuàng)文章哦!。

我的微信公眾號:會掘金的小鹿(NuggetsRoad)

總結(jié)

以上是生活随笔為你收集整理的爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。