hadoop学习-stream-Top K记录
生活随笔
收集整理的這篇文章主要介紹了
hadoop学习-stream-Top K记录
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
求海量數據中最大的K個記錄
來源于《hadoop實戰》(hadoop in action)(美 拉姆)第4.7章節有關stream的習題。
數據源:apat63_99.txt 專利描述數據集,包含專利號、專利申請年份等等信息。可從美國國家經濟研究局獲得,網址為http://www.nber.org/patents
大約有290萬條記錄。
這里的腳本用的是python。
apat63_99.txt里面存有專利的各種信息,這里以第9列的專利特定專利聲明個數作為排序的key值,將最大的K條完整記錄輸出。
apat63_99.txt格式:
[plain] view plain總結
以上是生活随笔為你收集整理的hadoop学习-stream-Top K记录的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop 在关机重启后,nameno
- 下一篇: hadoop学习-倒排索引