日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

發布時間:2025/3/21 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Crawler:爬蟲之基于https+parse庫實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

?

?

目錄

輸出結果

1、上海區塊鏈職位

2、北京區塊鏈職位

設計思路

核心代碼


?

?

?

?

?

輸出結果

1、上海區塊鏈職位

國內某知名招聘網上海關于區塊鏈職位的求職信息分析圖

?

2、北京區塊鏈職位

國內某知名招聘網北京關于區塊鏈職位的求職信息分析圖

?

設計思路

Python實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

?

?

?

核心代碼

from https import Http from parse import Parse from setting import headers from setting import cookies import time import logging import codecs#logging.basicConfig函數為日志系統做基本配置:Python寫比較大型的程序,用日志系統會方便發現錯誤。 logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #輸入網址、參數實現獲取網頁上的內容generalHttp = Http() htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage() info = [] def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #實現將爬取的網頁內容存入到xls表格文件logging.error('Process start') try: title = '公司名稱\t公司類型\t融資階段\t標簽\t公司規模\t公司所在地\t職位類型\t學歷要求\t福利\t薪資\t工作經驗\t發布時間\n'file = codecs.open('%s市有關區塊鏈的職位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函數先將xls表格的列名寫入xls文件內for p in info: #for循環依次將十二個字段的內容寫入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后將line寫入xls文件file.close() #file.close()關閉xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函數開始進行爬取網址logging.error('Main start') if url:info = getInfo(url, para) flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'區塊鏈'] cityList = [u'上海', u'北京'] url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('現在開始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{,頁數,城市}flag = main(url, para) if flag: #if人性化輸出是否爬取成功print('%s爬取成功!' % city)else:print('%s爬取失敗!' % city)

?

?

?

總結

以上是生活随笔為你收集整理的Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。