日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

發布時間:2025/3/21 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Crawler:爬蟲之基于https+parse庫實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

?

?

目錄

輸出結果

1、上海區塊鏈職位

2、北京區塊鏈職位

設計思路

核心代碼


?

?

?

?

?

輸出結果

1、上海區塊鏈職位

國內某知名招聘網上海關于區塊鏈職位的求職信息分析圖

?

2、北京區塊鏈職位

國內某知名招聘網北京關于區塊鏈職位的求職信息分析圖

?

設計思路

Python實現爬取國內某知名招聘網上海、北京關于區塊鏈職位的求職信息

?

?

?

核心代碼

from https import Http from parse import Parse from setting import headers from setting import cookies import time import logging import codecs#logging.basicConfig函數為日志系統做基本配置:Python寫比較大型的程序,用日志系統會方便發現錯誤。 logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #輸入網址、參數實現獲取網頁上的內容generalHttp = Http() htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage() info = [] def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #實現將爬取的網頁內容存入到xls表格文件logging.error('Process start') try: title = '公司名稱\t公司類型\t融資階段\t標簽\t公司規模\t公司所在地\t職位類型\t學歷要求\t福利\t薪資\t工作經驗\t發布時間\n'file = codecs.open('%s市有關區塊鏈的職位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函數先將xls表格的列名寫入xls文件內for p in info: #for循環依次將十二個字段的內容寫入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后將line寫入xls文件file.close() #file.close()關閉xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函數開始進行爬取網址logging.error('Main start') if url:info = getInfo(url, para) flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'區塊鏈'] cityList = [u'上海', u'北京'] url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('現在開始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{,頁數,城市}flag = main(url, para) if flag: #if人性化輸出是否爬取成功print('%s爬取成功!' % city)else:print('%s爬取失敗!' % city)

?

?

?

總結

以上是生活随笔為你收集整理的Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。