mysql 万亿数据_sql-server – 哪个数据库可以处理数十亿/数万亿条记录的存储?...
我們正在研究開發(fā)一種捕獲和分析netflow數(shù)據(jù)的工具,我們收集了大量的數(shù)據(jù).每天我們捕獲大約14億個流記錄,這些記錄在json格式中看起來像這樣:
{
"tcp_flags": "0","src_as": "54321","nexthop": "1.2.3.4","unix_secs": "1352234521","src_mask": "23","tos": "0","prot": "6","input": "105","doctets": "186","engine_type": "0","exaddr": "2.3.4.5","engine_id": "2","srcaddr": "9.8.7.6","dst_as": "12345","unix_nsecs": "752265174","sysuptime": "2943529544","dst_mask": "24","dstport": "80","last": "2943523241","srcport": "52672","dpkts": "4","output": "111","dstaddr": "6.5.4.3","first": "2943517993"
}
我們希望能夠?qū)?shù)據(jù)集進行快速搜索(少于10秒),最有可能在很短的時間內(nèi)(10 – 30分鐘間隔).我們還希望索引大部分數(shù)據(jù)點,以便我們可以快速搜索每個數(shù)據(jù)點.我們還希望在執(zhí)行搜索時獲得最新的數(shù)據(jù)視圖.留在開源世界會很棒,但我們并不反對為這個項目尋找專有解決方案.
這個想法是保留大約一個月的數(shù)據(jù),這將是約432億條記錄.粗略估計每條記錄將包含大約480字節(jié)的數(shù)據(jù),相當(dāng)于一個月內(nèi)大約18.7太字節(jié)的數(shù)據(jù),可能是索引的三倍.最終,我們希望增加此系統(tǒng)的容量來存儲數(shù)萬億條記錄.
我們(非常基本上)已經(jīng)對這個項目的候選人進行了評估,但是每個人都提出了自己的挑戰(zhàn).使用couchbase時,索引是按時間間隔完成的,而不是在插入數(shù)據(jù)期間,因此視圖不是最新的,cassandra的二級索引在返回結(jié)果時效率不高,因為它們通常需要掃描整個集群以獲得結(jié)果,而mongodb看起來很有希望但是由于它是主/從/分片,因此看起來更難以擴展.我們計劃評估的其他一些候選者是elasticsearch,MysqL(不確定這是否適用),以及一些面向列的關(guān)系數(shù)據(jù)庫.任何建議或現(xiàn)實世界的經(jīng)驗將不勝感激.
總結(jié)
以上是生活随笔為你收集整理的mysql 万亿数据_sql-server – 哪个数据库可以处理数十亿/数万亿条记录的存储?...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql dba失业_DBA要失业了?
- 下一篇: mysql什么格式转换_MySQL日期格