日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

python3 mysql代码行_教你用100多行写一个数据库(附源码)|python3教程|python入门|python教程...

發(fā)布時間:2024/9/27 数据库 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3 mysql代码行_教你用100多行写一个数据库(附源码)|python3教程|python入门|python教程... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

https://www.xin3721.com/eschool/pythonxin3721/

本文介紹的是以為中國的IT資深人士寫的一個簡單的數(shù)據(jù)庫,沒有我們使用的數(shù)據(jù)庫那么強(qiáng)大,但是值得大家借鑒。可以用在特定環(huán)境中,更加靈活方便。

數(shù)據(jù)庫的名字叫WawaDB,是用python實現(xiàn)的。由此可見python是灰常強(qiáng)大啊!

簡介

記錄日志的需求一般是這樣的:

只追加,不修改,寫入按時間順序?qū)懭?#xff1b;

大量寫,少量讀,查詢一般查詢一個時間段的數(shù)據(jù);

MongoDB的固定集合很好的滿足了這個需求,但是MongoDB占內(nèi)存比較大,有點(diǎn)兒火穿蚊子,小題大做的感覺。

WawaDB的思路是每寫入1000條日志,在一個索引文件里記錄下當(dāng)前的時間和日志文件的偏移量。

然后按時間詢?nèi)罩緯r,先把索引加載到內(nèi)存中,用二分法查出時間點(diǎn)的偏移量,再打開日志文件seek到指定位置,這樣就能很快定位用戶需要的數(shù)據(jù)并讀取,而不需要遍歷整個日志文件。

性能

Core 2 P8400,2.26GHZ,2G內(nèi)存,32 bit win7

寫入測試:

模擬1分鐘寫入10000條數(shù)據(jù),共寫入5個小時的數(shù)據(jù), 插入300萬條數(shù)據(jù),每條數(shù)據(jù)54個字符,用時2分51秒

讀取測試:讀取指定時間段內(nèi)包含某個子串的日志

數(shù)據(jù)范圍 遍歷數(shù)據(jù)量 結(jié)果數(shù) 用時(秒)

5小時 300萬 604 6.6

2小時 120萬 225 2.7

1小時 60萬 96 1.3

30分鐘 30萬 44 0.6

索引

只對日志記錄的時間做索引, 簡介里大概說了下索引的實現(xiàn),二分查找肯定沒B Tree效率高,但一般情況下也差不了一個數(shù)量級,而且實現(xiàn)特別簡單。

因為是稀疏索引,并不是每條日志都有索引記錄它的偏移量,所以讀取數(shù)據(jù)時要往前多讀一些數(shù)據(jù),防止漏讀,等讀到真正所需的數(shù)據(jù)時再真正給用戶返回數(shù)據(jù)。

如下圖,比如用戶要讀取25到43的日志,用二分法找25,找到的是30所在的點(diǎn),

索引:0 ? ? ? ? 10 ? ? ? ?20 ? ? ? ?30 ? ? ? ?40 ? ? ? ?50 日志:|.........|.........|.........|.........|.........|>>>a = [0, 10, 20, 30, 40, 50]>>>bisect.bisect_left(a, 35)>>>3>>>a[3]>>>30>>>bisect.bisect_left(a, 43)>>>5>>>a[5]>>>50

所以我們要往前倒一些,從20(30的前一個刻度)開始讀取日志,21,22,23,24讀取后因為比25小,所以扔掉, 讀到25,26,27,...后返回給用戶

讀取到40(50的前一個刻度)后就要判斷當(dāng)前數(shù)據(jù)是否大于43了,如果大于43(返回全開區(qū)間的數(shù)據(jù)),就要停止讀了。

整體下來我們只操作了大文件的很少一部分就得到了用戶想要的數(shù)據(jù)。

緩沖區(qū)

為了減少寫入日志時大量的磁盤寫,索引在append日志時,把buffer設(shè)置成了10k,系統(tǒng)默認(rèn)應(yīng)該是4k。

同理,為了提高讀取日志的效率,讀取的buffer也設(shè)置了10k,也需要根據(jù)你日志的大小做適當(dāng)調(diào)整。

索引的讀寫設(shè)置成了行buffer,每滿一行都要flush到磁盤上,防止讀到不完整的索引行(其實實踐證明,設(shè)置了行buffer,還是能讀到半拉的行)。

查詢

啥?要支持SQL,別鬧了,100行代碼怎么支持SQL呀。

現(xiàn)在查詢是直接傳入一個lambada表達(dá)式,系統(tǒng)遍歷指定時間范圍內(nèi)的數(shù)據(jù)行時,滿足用戶的lambada條件才會返回給用戶。

當(dāng)然這樣會多讀取很多用戶不需要的數(shù)據(jù),而且每行都要進(jìn)行l(wèi)ambda表達(dá)式的運(yùn)算,不過沒辦法,簡單就是美呀。

以前我是把一個需要查詢的條件和日志時間,日志文件偏移量都記錄在索引里,這樣從索引里查找出符合條件的偏移量,然后每條數(shù)據(jù)都如日志文件里seek一次,read一次。這樣好處只有一個,就是讀取的數(shù)據(jù)量少了,但缺點(diǎn)有兩個:

索引文件特別大,不方便加載到內(nèi)存中

每次讀取都要先seek,貌似緩沖區(qū)用不上,特別慢,比連續(xù)讀一個段的數(shù)據(jù),并用lambda過濾慢四五倍

寫入

前面說過了,只append,不修改數(shù)據(jù),而且每行日志最前面是時間戳。

多線程

查詢數(shù)據(jù),可以多線程同時查詢,每次查詢都會打開一個新的日志文件的描述符,所以并行的多個讀取不會打架。

寫入的話,雖然只是append操作,但不確認(rèn)多線程對文件進(jìn)行append操作是否安全,所以建議用一個隊列,一個專用線程進(jìn)行寫入。

沒有任何鎖。

排序

默認(rèn)查詢出來的數(shù)據(jù)是按時間正序排列,如需其它排序,可取到內(nèi)存后用python的sorted函數(shù)排序,想怎么排就怎么排。

100多行的數(shù)據(jù)庫代碼

總結(jié)

以上是生活随笔為你收集整理的python3 mysql代码行_教你用100多行写一个数据库(附源码)|python3教程|python入门|python教程...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。