日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mongodb在插入数据环节避免数据重复的方法(爬虫中的使用update)

發布時間:2025/3/14 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mongodb在插入数据环节避免数据重复的方法(爬虫中的使用update) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

mongo 去重

import pymongoclient = pymongo.MongoClient() collection=client.t.test# collection.insert({'title':'python','name':'deng','age':23}) data={'title':'go','name':'wang','age':45,'url':1} collection.update({'url':1},{'$set':data},True)

# 上面的案例,表示如何url重復的話,url不更新,其他字典如果數據不一致就會更新。

?

爬蟲案例:

collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True) # coding=utf8 """ author:dengjiyun """ import pymongoclient=pymongo.MongoClient() collection = client.dou.doubanimport requests url='https://movie.douban.com/j/chart/top_list'params={'type':'11','interval_id':'100:90','action':'','start':'60','limit':'20' } headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36' }res=requests.get(url,params=params,headers=headers).json()for item in res:data={}# print(item['cover_url'])data['vote_count']=item['vote_count'] # 評論data['score']=item['score'] # 得分data['title']=item['title'] # 電影名data['url']=item['url'] # 詳情頁urldata['cover_url']=item['cover_url'] # 封面圖片data['rank'] =item['rank'] # 排名data['id'] =item['id'] # 電影iddata['release_date']=item['release_date'] # 發布日期print(item)# 不插入重復數據 collection.update()collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True) client.close()

?

轉載于:https://www.cnblogs.com/knighterrant/p/10920308.html

總結

以上是生活随笔為你收集整理的mongodb在插入数据环节避免数据重复的方法(爬虫中的使用update)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。