生活随笔
收集整理的這篇文章主要介紹了
豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
二、豆瓣電影數(shù)據(jù)的整理
下一部分的爬取需要借助上一節(jié)爬取的數(shù)據(jù),也就是電影的id號(hào),根據(jù)id號(hào)來爬取具體的電影數(shù)據(jù)。 需要對爬取的數(shù)據(jù)進(jìn)行處理,成為更有利于我們使用的數(shù)據(jù)。如下圖所示:
這里把代碼貼出來就不進(jìn)行解釋了。 數(shù)據(jù)和代碼放到一個(gè)目錄下(data下是我們上一節(jié)爬取的數(shù)據(jù),get_index_id_name.py是整理程序):
import os
import csv
def readAllFiles(filePath
):id = []name
= []fileList
= os
.listdir
(filePath
)for file in fileList
:path
= os
.path
.join
(filePath
, file)if os
.path
.isfile
(path
):with open(path
, 'r') as f
:reader
= csv
.reader
(f
)for i
in reader
:if str(i
[4]) != "NONE" and str(i
[4]) != 'id':id.append
(i
[4])name
.append
(i
[7])return name
, id
movie_name
, movie_id
= readAllFiles
("data")with open('index.csv', 'w', encoding
='utf-8-sig', newline
='') as f
:f1
= csv
.writer
(f
)for i
in range(len(movie_name
)):f1
.writerow
([movie_id
[i
], movie_name
[i
]])
謝謝大家的閱讀!
總結(jié)
以上是生活随笔為你收集整理的豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。