token验证_如何利用 C# 爬取带 Token 验证的网站数据?
在對文本數(shù)據(jù)的情感分析中,基于情感詞典的方法是最簡單也是最常用的一種了。
它的大體思路如下:
對文檔分詞,找出文檔中的情感詞、否定詞以及程度副詞,然后判斷每個(gè)情感詞之前是否有否定詞及程度副詞,將它之前的否定詞和程度副詞劃分為一個(gè)組,如果有否定詞將情感詞的情感權(quán)值乘以-1,如果有程度副詞就乘以程度副詞的程度值,最后所有組的得分加起來,大于 0 的歸于正向,小于 0 的歸于負(fù)向。
這兩天,學(xué)校的一個(gè)團(tuán)隊(duì)讓我?guī)兔ε廊∧尘W(wǎng)站的兩份帶有權(quán)值的情感詞典。
第一份是“臺灣大學(xué)情感詞匯庫”,有 11086 個(gè)帶有權(quán)值的情感詞。
臺灣大學(xué)情感詞匯庫
第二份是“萌泰情感詞匯庫”,有 27466 個(gè)帶有權(quán)值的情感詞。
萌泰情感詞匯庫
分析這個(gè)網(wǎng)站,我們發(fā)現(xiàn)每一個(gè)網(wǎng)絡(luò)請求都需要攜帶 Token,即身份認(rèn)證。
所以,我們需要先通過登陸請求,獲取到該用戶的 Token,之后的每次請求帶上該 Token 才能爬取到該網(wǎng)站的數(shù)據(jù)。
為了快速完成爬取這兩份情感詞典的任務(wù),我使用了兩套開源代碼,RestSharp 和 Newtonsoft.Json。
RestSharp
利用該開源代碼可以得到網(wǎng)絡(luò)請求之后的 Json 數(shù)據(jù),其下載地址如下:
https://github.com/restsharp/RestSharp
RestSharp
Newtonsoft.Json
利用該開源代碼可以對得到的 Json 數(shù)據(jù)進(jìn)行反序列化,得到 C# 對應(yīng)的類,其下載地址如下:
https://github.com/JamesNK/Newtonsoft.Json
Newtonsoft.Json
Newtonsoft.Json 這套開源代碼,我在 [如何利用 C# 爬取「貓眼電影專業(yè)版:票房」數(shù)據(jù)!]以及 [如何做一款「桌面版百度翻譯」軟件?]中使用過,以前網(wǎng)絡(luò)請求部分都是通過 HttpWebRequest直接寫的,這次偷懶使用了 RestSharp 這套來源代碼。
如果大家對這兩套開源代碼感興趣,給我留言,我再來寫幾篇圖文介紹它們,下面來看看爬取情感詞典的代碼。
1. 構(gòu)造接收 Token 的類 UserInfor。
public class Token{ public string token;}public class UserInfor{ public Token rt_info;}2. 得到登陸用戶的Token數(shù)據(jù)。
public string GetToken(string baseUrl,string username,string password){ string value = "{"username":"" + username +總結(jié)
以上是生活随笔為你收集整理的token验证_如何利用 C# 爬取带 Token 验证的网站数据?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python具体工作内容_有没有人知道公
- 下一篇: qt和c#怎么选_请问目前做window