當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mongodb插入速度每秒_MongoDB事实：商品硬件上每秒插入80000次以上

發(fā)布時間：2023/12/3 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 mongodb插入速度每秒_MongoDB事实：商品硬件上每秒插入80000次以上小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

mongodb插入速度每秒

在嘗試一些時間序列集合時，我需要一個大型數(shù)據(jù)集來檢查我們的聚合查詢在增加數(shù)據(jù)負載的情況下不會成為瓶頸。我們解決了5000萬份文檔，因為超出此數(shù)目我們?nèi)匀粫紤]分片。

每次事件如下所示：

{"_id" : ObjectId("5298a5a03b3f4220588fe57c"),"created_on" : ISODate("2012-04-22T01:09:53Z"),"value" : 0.1647851116706831 }

當我們想要獲得隨機值時，我們考慮使用JavaScript或Python生成它們（我們可以在Java中進行嘗試，但是我們希望盡快編寫它）。我們不知道哪個會更快，所以我們決定對其進行測試。

我們的第一次嘗試是通過MongoDB Shell運行一個JavaScript文件。

看起來是這樣的：

這是我們運行它的方式以及所獲得的：

mongo random --eval "var arg1=50000000;arg2=1" create_random.js Job#1 inserted 100000 documents. Job#1 inserted 200000 documents. Job#1 inserted 300000 documents. ... Job#1 inserted 49900000 documents. Job#1 inserted 50000000 in 566.294s

好吧，這已經(jīng)超出了我的期望（每秒88293次插入）。

現(xiàn)在輪到Python了。您將需要安裝pymongo才能正確運行它。

import sys import os import pymongo import time import randomfrom datetime import datetimemin_date = datetime(2012, 1, 1) max_date = datetime(2013, 1, 1) delta = (max_date - min_date).total_seconds()job_id = '1'if len(sys.argv) < 2:sys.exit("You must supply the item_number argument") elif len(sys.argv) > 2:job_id = sys.argv[2] documents_number = int(sys.argv[1]) batch_number = 5 * 1000;job_name = 'Job#' + job_id start = datetime.now();# obtain a mongo connection connection = pymongo.Connection("mongodb://localhost", safe=True)# obtain a handle to the random database db = connection.random collection = db.randomDatabatch_documents = [i for i in range(batch_number)];for index in range(documents_number):try: date = datetime.fromtimestamp(time.mktime(min_date.timetuple()) + int(round(random.random() * delta)))value = random.random()document = {'created_on' : date, 'value' : value, }batch_documents[index % batch_number] = documentif (index + 1) % batch_number == 0:collection.insert(batch_documents) index += 1;if index % 100000 == 0: print job_name, ' inserted ', index, ' documents.' except:print 'Unexpected error:', sys.exc_info()[0], ', for index ', indexraise print job_name, ' inserted ', documents_number, ' in ', (datetime.now() - start).total_seconds(), 's'

我們運行它，這是我們這次得到的：

python create_random.py 50000000 Job#1 inserted 100000 documents. Job#1 inserted 200000 documents. Job#1 inserted 300000 documents. ... Job#1 inserted 49900000 documents. Job#1 inserted 50000000 in 1713.501 s

與JavaScript版本（每秒插入29180次）相比，它要慢一些，但不要氣lets。 Python是一種功能齊全的編程語言，因此如何利用我們所有的CPU內(nèi)核（例如4個內(nèi)核）并為每個內(nèi)核啟動一個腳本，每個腳本插入總文檔數(shù)的一小部分（例如12500000）。

import sys import pymongo import time import subprocess import multiprocessingfrom datetime import datetimecpu_count = multiprocessing.cpu_count()# obtain a mongo connection connection = pymongo.Connection('mongodb://localhost', safe=True)# obtain a handle to the random database db = connection.random collection = db.randomDatatotal_documents_count = 50 * 1000 * 1000; inserted_documents_count = 0 sleep_seconds = 1 sleep_count = 0for i in range(cpu_count):documents_number = str(total_documents_count/cpu_count)print documents_numbersubprocess.Popen(['python', '../create_random.py', documents_number, str(i)])start = datetime.now();while (inserted_documents_count < total_documents_count) is True:inserted_documents_count = collection.count()if (sleep_count > 0 and sleep_count % 60 == 0): print 'Inserted ', inserted_documents_count, ' documents.' if (inserted_documents_count < total_documents_count):sleep_count += 1time.sleep(sleep_seconds) print 'Inserting ', total_documents_count, ' took ', (datetime.now() - start).total_seconds(), 's'

運行并行執(zhí)行Python腳本是這樣的：

python create_random_parallel.py Job#3 inserted 100000 documents. Job#2 inserted 100000 documents. Job#0 inserted 100000 documents. Job#1 inserted 100000 documents. Job#3 inserted 200000 documents. ... Job#2 inserted 12500000 in 571.819 s Job#0 inserted 12400000 documents. Job#3 inserted 10800000 documents. Job#1 inserted 12400000 documents. Job#0 inserted 12500000 documents. Job#0 inserted 12500000 in 577.061 s Job#3 inserted 10900000 documents. Job#1 inserted 12500000 documents. Job#1 inserted 12500000 in 578.427 s Job#3 inserted 11000000 documents. ... Job#3 inserted 12500000 in 623.999 s Inserting 50000000 took 624.655 s

這確實非常好（每秒插入80044次），即使它仍比第一次JavaScript導入慢。因此，讓我們修改最后一個Python腳本，以通過多個MongoDB Shell運行JavaScript。

由于我無法為mongo命令以及由主python腳本啟動的子進程提供必需的參數(shù)，因此我提出了以下替代方案：

for i in range(cpu_count):documents_number = str(total_documents_count/cpu_count)script_name = 'create_random_' + str(i + 1) + '.bat'script_file = open(script_name, 'w')script_file.write('mongo random --eval "var arg1=' + documents_number +';arg2=' + str(i + 1) +'" ../create_random.js');script_file.close()subprocess.Popen(script_name)

我們動態(tài)生成shell腳本，然后讓python為我們運行它們。

Job#1 inserted 100000 documents. Job#4 inserted 100000 documents. Job#3 inserted 100000 documents. Job#2 inserted 100000 documents. Job#1 inserted 200000 documents. ... Job#4 inserted 12500000 in 566.438s Job#3 inserted 12300000 documents. Job#2 inserted 10800000 documents. Job#1 inserted 11600000 documents. Job#3 inserted 12400000 documents. Job#1 inserted 11700000 documents. Job#2 inserted 10900000 documents. Job#1 inserted 11800000 documents. Job#3 inserted 12500000 documents. Job#3 inserted 12500000 in 574.782s Job#2 inserted 11000000 documents. Job#1 inserted 11900000 documents. Job#2 inserted 11100000 documents. Job#1 inserted 12000000 documents. Job#2 inserted 11200000 documents. Job#1 inserted 12100000 documents. Job#2 inserted 11300000 documents. Job#1 inserted 12200000 documents. Job#2 inserted 11400000 documents. Job#1 inserted 12300000 documents. Job#2 inserted 11500000 documents. Job#1 inserted 12400000 documents. Job#2 inserted 11600000 documents. Job#1 inserted 12500000 documents. Job#1 inserted 12500000 in 591.073s Job#2 inserted 11700000 documents. ... Job#2 inserted 12500000 in 599.005s Inserting 50000000 took 599.253 s

這也很快（每秒83437次插入），但仍然無法擊敗我們的第一次嘗試。

結論

我的PC配置與眾不同，唯一的優(yōu)化是我有一個運行MongoDB的SSD驅(qū)動器。

第一次嘗試產(chǎn)生了最佳結果，并且監(jiān)視CPU資源后，我意識到MongoDB甚至可以在單個Shell控制臺中利用所有這些資源。在所有內(nèi)核上運行的Python腳本也足夠快，并且它的優(yōu)點是允許我們根據(jù)需要將該腳本轉(zhuǎn)換為可完全運行的應用程序。

代碼可在GitHub上獲得。

參考： MongoDB事實：我們的JCG合作伙伴 Vlad Mihalcea在Vlad Mihalcea的Blog博客上每秒插入80000次以上商品硬件。

翻譯自: https://www.javacodegeeks.com/2013/12/mongodb-facts-80000-insertssecond-on-commodity-hardware.html

mongodb插入速度每秒

總結

以上是生活随笔為你收集整理的mongodb插入速度每秒_MongoDB事实：商品硬件上每秒插入80000次以上的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：无服务器安全性：将其置于自动驾驶仪上
下一篇：模拟用户输入并检查输出的简单方法