當前位置:
首頁 >
用jiebaR分析比特币的文章
發布時間:2024/10/8
39
豆豆
生活随笔
收集整理的這篇文章主要介紹了
用jiebaR分析比特币的文章
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在這個notebook中,我們將使用jiebaR來分析一篇描述比特幣暴跌的文章
- 文章來源:財富網
- 文章鏈接:http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm
安裝jiebaR
install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')先來嘗試分析一下短句子
library(jiebaR) # 載入包 分詞器 = worker() # 創建分詞器 # 利用分詞器進行分詞 segment("在這個notebook中,我們將使用jiebaR來分析一片描述比特幣暴跌的文章", 分詞器)TRUE
# 用添加新詞“比特幣”的分詞器再次進行分詞 segment("在這個notebook中,我們將使用jiebaR來分析一片描述比特幣暴跌的文章", 分詞器)對文章進行分詞
# 讀取文本,按照行讀取 texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE) # 查看文章內容 texts‘character’
# 進行詞頻統計,并查看排序結果 require(dplyr) freq(分詞結果) %>% arrange(desc(freq)) %>% head()| 的 | 49 |
| 比特幣 | 36 |
| 在 | 10 |
| 是 | 9 |
| 美元 | 9 |
| 了 | 8 |
發現有很多“的”,“是”,“了”之類的詞,這些詞是停止詞。可以在統計詞頻是去除它們。
添加停止詞
# 添加目錄data下的停止詞文件,注意指定編碼方式 分詞器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8') # 注意此處新建了一個worker,所以需要重新添加用戶自定義單詞 new_user_word(分詞器, "比特幣", "n")TRUE
# 開始分詞 去除停止詞分詞結果 = segment(texts, 分詞器) freq(去除停止詞分詞結果) %>% arrange(desc(freq)) %>% head()| 比特幣 | 36 |
| 美元 | 9 |
| 投資者 | 7 |
| 幣值 | 6 |
| 投資 | 4 |
| 表示 | 4 |
保存詞頻統計結果
# 將分詞結果保存 fred_df <- freq(去除停止詞分詞結果) # 查看詞頻統計結果數據類型 class(fred_df)‘data.frame’
# 將結果寫到數據文件中 write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')注意不要再jupyter里面執行如下語句
# 由于jupyter不支持輸出這種內容豐富的圖像,在Rstudio里面執行如下語句 require(wordcloud2) wordcloud2(fred_df,size = 1, fontFamily = "微軟雅黑",color = "random-light",backgroundColor = "grey")總結
以上是生活随笔為你收集整理的用jiebaR分析比特币的文章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十七、股票分析实战
- 下一篇: R中方差,协方差,相关系数