Python 开发者在迁移到 Go(lang) 时需要知道哪些事?
【編者按】本文最早由 Repustate 發布,主要介紹將代碼遷移至 Go(lang) 時的注意事項。文章系國內 ITOM 管理平臺 OneAPM 編譯呈現,以下為正文。
這是一篇講述將大塊 Python/Cython 代碼遷移到 Go 的長文章。如果你想了解整個事情的經過、背景等所有信息,請讀下去。如果你只對 Python 開發者需要了解的事感興趣,請下拉到早該知道的事板塊。
背景
我們在 Repustate 最大的技術成果就是實現了阿拉伯語情感分析。阿拉伯語是個難啃的硬骨頭,因為阿拉伯語詞匯的形式非常復雜。阿拉伯語的標記化(把一句話拆分成單個單詞)也比英語要難得多,因為阿拉伯單詞內部可能會包含空格(例如單詞內部“aleph”的位置)。在不泄露機密的情況下,Repustate 利用支持向量機(SVM)來獲取一個句子最可能的意思,并且以此來推斷句子的情感。我們一共采用了22種模型(22個支持向量機),文檔中的每個詞都會被分析。也就是說,如果一個文檔包含500個詞,就會與支持向量機進行10000多次對比。
Python
Repustate 幾乎完全是用 Python 搭建的,我們使用 Django 來搭建 API 接口和網站架構。因此,為了保持代碼一致性,使用 Python 來實現所有阿拉伯語情感引擎才說得通。就原型設計和實現流程而言,Python 依然是一個很好的選擇:表現能力優秀,又有強大的第三方庫資源,等等。如果是服務于網頁,它就是最佳選擇。如果是稍低級別的運算,需要與哈希表(Python 中的字典)進行大量對比時,運行速度就會慢下來。我們一秒鐘只能處理2到3個阿拉伯語單詞,這種速度太慢了。相比之下,我們的英語情感引擎每秒能處理500個單詞。
瓶頸
因此,我們啟動了 Python 分析器,開始調查速度慢的原因。還記得上文提到我們有22個支持向量機,每個單詞都會通過它們處理嗎?原來這個過程是按順序進行,而不是并行的。好了,第一個想法是換成類似分布式計算系統(map/reduce)的處理器。長話短說:Python 不適合用 map/reduce。當你需要并發性的時候,Python 并不能幫上忙。在 Pycon 2013大會中,Guido 談到了 Tulip,他希望用來解決這個問題的一個新項目,但是還要過一段時間才能發布。可是,如果已經有了更好的選擇,為什么還要苦等下去呢?
選擇 Golang 還是回老家(Go Home)
在 Mozilla 的朋友告訴筆者,Mozilla 服務的日志架構大部分代碼都已遷移到 Go,部分原因是 goroutines 超級便利。Go 是由谷歌員工開發的,設計之初就將并發需求列為一級理念,而不是像 Python 的眾多解決方案一樣在做事后補救。因此我們開始著手實現從 Python 到 Go 的遷移。
雖然 Go 代碼還沒實現大規模產出,得到的結果已經非常振奮人心。我們現在一秒鐘能處理1000個文檔,使用的內存大大減少,而且也不用再去調試和解決使用 Python 時會遇到的多進程/協程(gevent)/“為什么 Control-C 殺死了我的進程”等問題。
喜歡 Go 的原因
任何略懂編程語言的人(明白解釋與編譯、動態與靜態區別)都會說:“哈,顯然 Go 要快多了。”沒錯,我們是可以用 Java 重寫所有內容,并且取得類似的效果,但是這并不是 Go 勝出的原因。你用 Go 寫的代碼似乎一出來是正確的。筆者也說不清楚,但是不知怎么的,一旦代碼被編譯(編譯過程非常迅速),你就會感覺它能工作了(不只是運行不出錯,而且還邏輯正確)。這聽起來很含糊,但是它是真的。在冗余或無冗余方面,它跟 Python 相似,它把函數當做一級對象,因此函數編程很方便。而且毋庸置疑,goroutines 和 channels 會讓你更加省心省力。靜態類型還會帶來極大的性能提升,以及更精確的內存分配控制,但是又不會損失太多表達性。
早該知道的事
除去溢美之詞,跟 Go 打交道需要與 Python 完全不同的一套思維模式。以下列出的是筆者在遷移時做的一些筆記——都是在從 Python 遷移到 Go 時隨機想到的一些東西:
- 沒有內建的集合類型(需要使用 map,然后測試存在性)
- 由于沒有集合類型,需要自己寫代碼來實現交集、并集等方法
- 無元組(tuple),必須自己寫架構或使用切片(slice)(數組)
- 沒有類似 getattr_() 的方法,因此需要不斷檢查存在性,而不能像在 Python 中那樣設置缺省值:value = dict.get(“a_key”, “default_value”)
- 必須不斷檢查錯誤(至少需要顯式忽略它們)
- 不能包含未使用的變量或包,因此有時候如果要測試一些簡單問題,需要給代碼添加注釋
- 在 []byte 和 string 之間切換。正則表達 (regexp) 使用 []byte (可變)。這說得通,但是在一些變量之間來回切換還是很煩人
- Python 更為寬松。你可以用超出范圍的索引來索取字符串片段,也不會有什么問題,還可以提取負值片段,但是 Go 就不行
- 不能使用混合類型的數據結構。也許不合規定,但是有時候在 Python 可以使用混合字符串和列表的字典。在 Go 就不行,要么清理干凈數據結構,要么自定義結構。感謝 Ralph Corderoy 向筆者展示了如何正確操作(用這個界面,盧克)
http://play.golang.org/p/SUgl7wd9tk - 不能把元組或列表分解成分開的變量(如 x,y,x = [1,2,3])
- 駝峰字規則(UpperCamelCase)(如果一個包中的函數或結構首字母未大寫,就不會暴露給其他包)。筆者更喜歡 Python 的小寫加下劃線格式(lower_case_with_underscores)
- 需要顯式檢查錯誤是否為 != nil,不像 Python 有很多類型可以用于布爾型檢查(0,“”,None 都會被解讀為“假”)
- 某些模塊(如 crypto/md5)的文檔不足,但是 IRC 上面的 go-nuts 非常棒,擁有特別好的支持
- 從數字到字符串的類型轉換(int64 -> 字符串)跟[]byte -> 字符串(只用字符串([]byte))不同,需要用到 strconv
- Go 的代碼讀起來更像是編程語言,而 Python寫出來更像偽代碼。Go 包含更多非數字字母字符,用 || 和 && 來表示“或”與“和”
- 寫文件會有 File.Write([]byte) 和File.WriteString(string),這會讓習慣了 Python
只有一種做事方法的開發者們有些不適應 - 字符串插入很麻煩,不得不經常使用 fmt.Sprintf
- 沒有構造函數,常見的做法是創建 NewType() 函數,來返回你需要的結構
- Else 或 else if 必須格式正確,else 得跟 if 從句的大括號在一行。這很奇怪。
- 根據函數內外位置,使用不同的賦值操作符,例如 = 和 :=
- 如果只想要類似dict.keys() 或dict.values()得到的鍵值或取值列表,或者通過
- dict.items()得到的元祖列表,在 Go 里面是無法實現的,只能自行迭代 map,然后創建自己的列表
- 筆者習慣建立一個取值為函數的字典,并通過鍵值調用函數。你可以在 Go
里面這么做,但是所有的函數都得接受和返回同樣的東西,也就是說,必須具備同樣的方法簽名 - 如果你是用 JSON, 而且是混合類型的 JSON,那么你還是自求多福吧。你得創建一個能夠匹配你的 JSON 二進制大對象(blob)格式的個性化結構,然后解組(Unmarshall)原始 JSON 成為你的個性化架構的一個用例。比起在 Python 中的一句“obj = json.loads(json_blob)”要費更多功夫
這么折騰值得嗎?
值,一百萬個值,超值。速度的提升不容忽視。而且筆者認為這也是促使 Go 成為流行語言的重要原因。因此在招聘時,筆者認為把 Go 當成 Python 開發者的必備技能也很重要。
本文轉自 OneAPM 官方博客
原文地址: https://blog.repustate.com/migrating-code-from-python-to-golang-what-you-need-to-know/
總結
以上是生活随笔為你收集整理的Python 开发者在迁移到 Go(lang) 时需要知道哪些事?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Excel如何导入Unix格式时间戳(年
- 下一篇: python中pop(),popitem