當前位置：首頁 >

用jiebaR分析比特币的文章

發布時間：2024/10/8 39 豆豆

生活随笔收集整理的這篇文章主要介紹了用jiebaR分析比特币的文章小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在這個notebook中，我們將使用jiebaR來分析一篇描述比特幣暴跌的文章

文章來源：財富網
文章鏈接：http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm

# 查看文章內容： file.show('./data//Bitcoin.txt',encoding = 'UTF-8')

安裝jiebaR

install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')

先來嘗試分析一下短句子

library(jiebaR) # 載入包分詞器 = worker() # 創建分詞器 # 利用分詞器進行分詞 segment("在這個notebook中，我們將使用jiebaR來分析一片描述比特幣暴跌的文章", 分詞器)

'在'

'這個'

'notebook'

'中'

'我們'

'將'

'使用'

'jiebaR'

'來'

'分析'

'一片'

'描述'

'比特'

'幣'

'暴跌'

'的'

'文章'

# 添加新詞到已存在的分詞器中，比特幣不能分開，它時一個詞。第三個參數 "n" 代表新詞的詞性標記 new_user_word(分詞器, "比特幣", "n")

TRUE

# 用添加新詞“比特幣”的分詞器再次進行分詞 segment("在這個notebook中，我們將使用jiebaR來分析一片描述比特幣暴跌的文章", 分詞器)

'在'

'這個'

'notebook'

'中'

'我們'

'將'

'使用'

'jiebaR'

'來'

'分析'

'一片'

'描述'

'比特幣'

'暴跌'

'的'

'文章'

對文章進行分詞

# 讀取文本，按照行讀取 texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE) # 查看文章內容 texts

'對于比特幣投資者來說，總有一些時候是特別考驗你的靈魂的。'

'在美國推出比特幣期貨后，比特幣的幣值在去年12月一度漲至近2萬美元，此后便一路暴跌，幣值被攔腰砍掉一半以上，截止至上周五已跌至7614美元。不過據比特幣網站coinmarketcap.com稱，截止到上周六紐約當地時間下午2時58分，比特幣的幣值又回升了7.5個百分點，回升至9290.15美元。'

'在此輪暴跌中，損失最慘重的，當然是那些在比特幣幣值最高位處接盤的人。此前不久，杰米·迪蒙和魯里埃爾·魯比尼等比特幣懷疑論者就曾指出，比特幣是史上最大的資產泡沫之一，且已顯現出貶值的跡象。“接盤俠”們的恐慌性出售，也與早期比

# 整篇文章一起分詞，將按行分詞的條件設置為FALSE 分詞器$bylines = FALSE # 開始分詞分詞結果 = segment(texts, 分詞器) # 查看分詞結果,查看前100個 head(分詞結果,100)

'對于'

'比特幣'

'投資者'

'來說'

'總有'

'一些'

'時候'

'是'

'特別'

'考驗'

'你'

'的'

'靈魂'

'的'

'在'

'美國'

'推出'

'比特幣'

'期貨'

'后'

'比特幣'

'的'

'幣值'

'在'

'去年'

'12'

'月'

'一度'

'漲至'

'近'

'2'

'萬美元'

'此后'

'便'

'一路'

'暴跌'

'幣值'

'被'

'攔腰'

'砍掉'

'一半'

'以上'

'截止'

'至'

'上周五'

'已跌'

'至'

# 分詞結構數據類型 class(分詞結果)

‘character’

# 進行詞頻統計，并查看排序結果 require(dplyr) freq(分詞結果) %>% arrange(desc(freq)) %>% head() charfreq

的	49
比特幣	36
在	10
是	9
美元	9
了	8

發現有很多“的”，“是”，“了”之類的詞，這些詞是停止詞。可以在統計詞頻是去除它們。

添加停止詞

# 添加目錄data下的停止詞文件，注意指定編碼方式分詞器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8') # 注意此處新建了一個worker，所以需要重新添加用戶自定義單詞 new_user_word(分詞器, "比特幣", "n")

TRUE

# 開始分詞去除停止詞分詞結果 = segment(texts, 分詞器) freq(去除停止詞分詞結果) %>% arrange(desc(freq)) %>% head() charfreq

比特幣	36
美元	9
投資者	7
幣值	6
投資	4
表示	4

保存詞頻統計結果

# 將分詞結果保存 fred_df <- freq(去除停止詞分詞結果) # 查看詞頻統計結果數據類型 class(fred_df)

‘data.frame’

# 將結果寫到數據文件中 write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')

注意不要再jupyter里面執行如下語句

# 由于jupyter不支持輸出這種內容豐富的圖像，在Rstudio里面執行如下語句 require(wordcloud2) wordcloud2(fred_df,size = 1, fontFamily = "微軟雅黑",color = "random-light",backgroundColor = "grey")

總結

以上是生活随笔為你收集整理的用jiebaR分析比特币的文章的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

用jiebaR分析比特币的文章

在這個notebook中，我們將使用jiebaR來分析一篇描述比特幣暴跌的文章

安裝jiebaR

先來嘗試分析一下短句子

對文章進行分詞

添加停止詞

保存詞頻統計結果

總結