當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子

發(fā)布時間：2023/12/20 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對量化投資策略進(jìn)行研究，第一步就是獲取我們需要的數(shù)據(jù)。使用歷史數(shù)據(jù)能夠?qū)Σ呗赃M(jìn)行回測，以驗(yàn)證策略的有效性和可信性。另一方面，量化投資本身也是一種對數(shù)據(jù)的研究，因此它也必須遵循數(shù)據(jù)分析的相關(guān)步驟。作為一個業(yè)余的量化投資愛好者，免費(fèi)的數(shù)據(jù)來源主要有以下幾種途徑：

Yahoo、Sina 財(cái)經(jīng)的API
Python的Tushare包
自己手工爬取

Tushare是一個免費(fèi)、開源的Python財(cái)經(jīng)數(shù)據(jù)接口包，它對數(shù)據(jù)進(jìn)行了規(guī)整因此使用起來非常方便。盡管有如此優(yōu)秀的數(shù)據(jù)包簡化了數(shù)據(jù)的采集工作，我們依然需要掌握從網(wǎng)站上爬取數(shù)據(jù)的技能，以獲取接口沒有提供的數(shù)據(jù)。本篇文章將會介紹一個小爬蟲，告訴大家如何從網(wǎng)站上獲取所有股票的代碼和名稱。

Python的urllib2庫是爬蟲的基礎(chǔ)，使用urllib2庫可以獲取網(wǎng)頁的內(nèi)容，再使用正則表達(dá)式對所需的內(nèi)容進(jìn)行提取。我們在東方財(cái)富網(wǎng)的stocklist頁面下對股票的代碼和名字進(jìn)行爬取，若要獲取該網(wǎng)頁下的全部內(nèi)容，則需要以下幾步：

對服務(wù)器發(fā)送一個請求，使用urllib2的Request方法返回reguest對象
采用urlopen方法處理構(gòu)建的request對象，返回服務(wù)器的應(yīng)答(response對象）
對response對象使用read方法，返回網(wǎng)頁的內(nèi)容

request

一些網(wǎng)站不允許程序直接采用上面的方式進(jìn)行訪問，因此需要通過程序模擬瀏覽器的行為。通常采用的技術(shù)是在Requset方法的headers參數(shù)中設(shè)置agent，這樣服務(wù)器認(rèn)為是瀏覽器發(fā)出的請求就可以正常respose。

url

在進(jìn)行網(wǎng)頁內(nèi)容的讀取過程中，會遇到這樣或那樣的原因?qū)е庐惓Ｊ沟米x取不成功，可以使用try-except捕獲相應(yīng)的異常。

try

以上就是獲取網(wǎng)頁Html的過程，下面就需要在這茫茫Html中獲取我們需要的東西。這個時候需要用到正則表達(dá)式對需要的內(nèi)容進(jìn)行匹配。

上圖中藍(lán)色標(biāo)出的部分是我們需要的股票名稱和代碼，采取以下正則表達(dá)式可以獲取需要的內(nèi)容。正則表達(dá)式的寫法不是唯一的，但需要保證使用該正則不會出現(xiàn)遺漏或多匹配出不需要的其他信息的情況。如果你對正則表達(dá)式不太熟悉也沒有關(guān)系，Python提供了Beautiful Soup工具能夠更為簡單地提起Html或者Xml中的內(nèi)容。

pattern

采用findall方法返回的是一個List，我們可以將爬取的結(jié)果放在一個名為stocklist的txt文件中。

reload

當(dāng)然，更好的結(jié)果儲存方式是將結(jié)果放在數(shù)據(jù)庫中，下面就是以sqllite數(shù)據(jù)庫為例進(jìn)行了一個爬取結(jié)果的儲存。將爬取結(jié)果放在數(shù)據(jù)庫中能夠方便調(diào)用，并且可以設(shè)置shell任務(wù)做定時的爬取和更新。

conn

以下是完整的代碼，供大家參考。

#coding:utf-8

好了，如何從網(wǎng)站上爬取我們需要的數(shù)據(jù)就介紹到這里。Python有著更為強(qiáng)大的爬蟲框架Scrapy，有興趣的同學(xué)可以學(xué)習(xí)一下。關(guān)于本次小爬蟲的全部代碼，可以關(guān)注我的微信公眾號，以后會有更多關(guān)于量化的原創(chuàng)文章哦！。

我的微信公眾號：會掘金的小鹿（NuggetsRoad)

總結(jié)

以上是生活随笔為你收集整理的爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： git视频及对初学者的学习建议
下一篇：欧姆龙plc解密实例_OMRON PLC

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

爬虫数据executemany插入_金融数据的获取——一个爬虫的简单例子

總結(jié)