大数据读书笔记(1)
1. 數(shù)據(jù)分片與路由
? ?抽象模型為兩級(jí)映射關(guān)系,第一級(jí)映射是key-partition映射,第二級(jí)映射是partition-machine映射。
? ? ?數(shù)據(jù)分片有哈希分片和范圍分片:
哈希分片只支持點(diǎn)查詢,如cassandra,voltmort,membase;
范圍分片支持范圍查詢,google的bigtable 和ms的azure;
同時(shí)支持兩種的yahoo的pnuts。
2.哈希分片時(shí)進(jìn)行數(shù)據(jù)分片的常見手段,其中最常見的3中哈希分片方式分表是:輪詢、虛擬桶、一致哈希方法
? 2.1 輪詢也稱哈希取模方法
? ? ? ? H(key)=hash(key)modK
優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單
缺點(diǎn):缺乏靈活性,如新增或者減少一臺(tái)物理機(jī)時(shí)需要重新hash
? ? ?原因:將key-partition映射和partition-machine映射合二為一了,兩部分都由同一哈希函數(shù)完成,導(dǎo)致了機(jī)器和映射函數(shù)的緊耦合。
2.2 虛擬桶
key-partition映射采用哈希函數(shù),partition-machine采用表格管理實(shí)現(xiàn)。
2.3 一致性哈希
分布式哈希表DHT(distributed hash table)
3. 范圍分片
? ? ?首先將所有記錄的主鍵進(jìn)行排序,然后在排好序的主鍵空間里將記錄劃分成數(shù)據(jù)分片,每個(gè)數(shù)據(jù)分片存儲(chǔ)有序的主鍵空間片段內(nèi)的所有記錄。
數(shù)據(jù)分片在物理機(jī)的管理方式往往采用LSM樹。
?
參考文獻(xiàn):
【1】http://blog.csdn.net/gdhuyufei/article/details/42101231
?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/4931197.html
總結(jié)
以上是生活随笔為你收集整理的大数据读书笔记(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Want to archive tabl
- 下一篇: 大数据读书笔记(2)-流式计算