日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之路-分布式计算-disco(4)

發布時間:2023/11/29 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之路-分布式计算-disco(4) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一個參數iter是一個迭代器,涉及被map函數產生的鍵和值。它們是reduce實例。

在本例中。單詞隨機被托付給不同的reduce實例。然后,要單詞同樣,處理它的reduce也同樣。可確保終于合計是正確的。

第二個參數params與map函數中一致,在此。僅簡單使用disco.util.kvgroup()來提取每一個單詞統計計數。累計計數,yield(產生)結果。

執行作業

以下開始執行作業。可使用大量參數定制作業,但通常來說。對于簡單的任務來說 ,僅使用當中3個就可以。除了啟動作業之外,我們還須要輸出結果。首先,我們在作業完畢前要等待,通過調用wait等待調用完畢,完畢后會返回結果。為方便起見。通過job對象調用wait及其他相關方法。

result_iterator()函數取結果文件地址列表。它被wait()函數返回,iterates(迭代)遍歷全部結果中的鍵值對。

?

defmap(line, params):

??? for word in line.split():

??????? yield word, 1

?

defreduce(iter, params):

??? from disco.util import kvgroup

??? for word, counts in kvgroup(sorted(iter)):

??????? yield word, sum(counts)

?

if__name__ == '__main__':

??? job =Job().run(input=["http://discoproject.org/media/text/chekhov.txt"],

??????????????????? map=map,

??????????????????? reduce=reduce)

??? for word, count inresult_iterator(job.wait(show=True)):

??????? print(word, count)

?

本博客全部內容是原創,假設轉載請注明來源

http://blog.csdn.net/myhaspl/


假設一切妥當。可看到作業執行,輸入從tagdata:bigtxt中讀入,這個是開始時刻創建的終于打印輸出,在job執行時,可打開(或執行disco master的端口)。查看作業的實時進程。

python count_words.py

也可在控制臺上查看作業進程,例如以下:?

DISCO_EVENTS=1 python count_words.py

正如您所示,創建一個新的迪斯科的工作是相當簡單的。你能夠在隨意數量的方面擴展這個簡單的樣例。比如,通過使用params對象包含停用詞的列表。

假設你把迪斯科分布式文件系統的數據,你能夠試試改變輸到tag://data:bigtxt。以及加上map_reader =disco.worker.task_io.chain_reader。

你能夠試著用sum_combiner(),使job更有效率。

你也能夠嘗試自己定義功能分區和讀取函數,用與map和reduce函數一樣的方式編寫,然后,你能夠試著鏈接job在一起,以便之前的job輸出成為下一個的輸入。

disco是設計得盡可能的簡單,這樣你就能夠專注于你自己的問題,而不是框架。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的数学之路-分布式计算-disco(4)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。