爬取微博对话语料制作聊天机器人
微博終結(jié)者爬蟲
關(guān)于聊天對(duì)話系統(tǒng)我后面會(huì)開(kāi)源一個(gè)項(xiàng)目,這個(gè)repo目的是基于微博構(gòu)建一個(gè)高質(zhì)量的對(duì)話語(yǔ)料,本項(xiàng)目將繼續(xù)更進(jìn)開(kāi)發(fā),大家快star!!永遠(yuǎn)開(kāi)源!
這個(gè)項(xiàng)目致力于對(duì)抗微博的反爬蟲機(jī)制,集合眾人的力量把微博成千上萬(wàn)的微博評(píng)論語(yǔ)料爬取下來(lái)并制作成一個(gè)開(kāi)源的高質(zhì)量中文對(duì)話語(yǔ)料,推動(dòng)中文對(duì)話系統(tǒng)的研發(fā)。
本系統(tǒng)現(xiàn)已實(shí)現(xiàn):
- 爬取指定id用戶的微博數(shù),關(guān)注數(shù),粉絲數(shù),所有微博內(nèi)容以及所有微博對(duì)應(yīng)的評(píng)論;
- 作者考慮到制作對(duì)話系統(tǒng)的可行性以及微博語(yǔ)料的難處理性,爬取過(guò)程中,所有微博會(huì)保存為可提取的形式,具體可以參照爬取結(jié)果保存樣例;
- 本項(xiàng)目不依賴于任何第三方爬取框架,但手動(dòng)實(shí)現(xiàn)了一個(gè)多線程庫(kù),當(dāng)爬取多用戶時(shí)會(huì)開(kāi)啟上百條線程工作,爬取速度在每小時(shí)百萬(wàn)級(jí)別;
- 本項(xiàng)目最終目的是為了充分利用龐大的微博平臺(tái)構(gòu)建一個(gè)開(kāi)源高質(zhì)量的中文對(duì)話系統(tǒng)(據(jù)作者所知,很多公司對(duì)自己的數(shù)據(jù)視如珍寶,鄙之);
- 除此之外,本項(xiàng)目還可以用于指定用戶評(píng)論分析,比如爬取羅永浩的微博可以分析他第二年錘子手機(jī)的銷量(牛逼把)
希望更多童鞋們contribute進(jìn)來(lái),還有很多工作要做,歡迎提交PR!
為人工智能而生
中文語(yǔ)料一直以來(lái)備受詬病,沒(méi)有機(jī)構(gòu)或者組織去建立一些公開(kāi)的數(shù)據(jù)集,反觀國(guó)外,英文語(yǔ)料相當(dāng)豐富,而且已經(jīng)做的非常精準(zhǔn)。
PicName
微博語(yǔ)料作者認(rèn)為是覆蓋最廣,最活躍最新鮮的語(yǔ)料,使用之構(gòu)建對(duì)話系統(tǒng)不說(shuō)模型是否精準(zhǔn),但新鮮的詞匯量是肯定有的。
爬取結(jié)果
PicName
指定用戶的微博和評(píng)論形式如下:
E 4月15日#傲嬌與偏見(jiàn)# 超前點(diǎn)映,跟我一起去搶光它 [太開(kāi)心] 傲嬌與偏見(jiàn) 8.8元超前點(diǎn)映 順便預(yù)告一下,本周四(13號(hào))下 午我會(huì)微博直播送福利,不見(jiàn)不散哦[壞笑] 電影傲嬌與偏見(jiàn)的秒拍視頻 <200b><200b><200b> E F <哈哈哈哈哈哈狗->: 還唱嗎[doge] <緑麓>: 綠麓! <哈哈哈哈哈哈狗->: [doge][doge] <至誠(chéng)dliraba>: 哈哈哈哈哈哈哈 <五只熱巴肩上扛>: 大哥已經(jīng)唱完了[哆啦A夢(mèng)吃驚] <哈哈哈哈哈哈狗->: 大哥[哆啦A夢(mèng)吃驚] <獨(dú)愛(ài)Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵] <四只熱巴肩上扛>: 對(duì)不起[可憐]我不趕 <四只熱巴肩上扛>: 哈狗[哆啦A夢(mèng)花心][哆啦A夢(mèng)花心] <至誠(chéng)dliraba>: 哈狗來(lái)了 哈哈哈 <四只熱巴肩上扛>: [攤手]綠林鹿去哪里了!!!! <哈哈哈哈哈哈狗->: 阿健[哆啦A夢(mèng)花心] <至誠(chéng)dliraba>: 然而你還要趕我出去[喵喵] <四只熱巴肩上扛>: 我也很絕望 <至誠(chéng)dliraba>: 只剩翻墻而來(lái)的我了 <四只熱巴肩上扛>: [攤手]我能怎么辦 <四只熱巴肩上扛>: [攤手]一首歌唱到一半被掐斷是一個(gè)歌手的恥辱[攤手] <至誠(chéng)dliraba>: 下一首 <四只熱巴肩上扛>: 最害怕就是黑屋[攤手] <至誠(chéng)dliraba>: 我腦海一直是 跨過(guò)傲嬌與偏見(jiàn) 永恒的信念 F說(shuō)明:
- E E 表示微博內(nèi)容的開(kāi)頭和結(jié)果
- F F表示所有評(píng)論的開(kāi)頭和結(jié)尾
- 每條評(píng)論中 <> 是發(fā)起評(píng)論的用戶id, $$ 中是at用戶的id
Future Work
現(xiàn)在爬取的語(yǔ)料是最原始版本,大家對(duì)于語(yǔ)料的用途可以從這里開(kāi)始,可以用來(lái)做話題評(píng)論機(jī)器人,但作者后面將繼續(xù)開(kāi)發(fā)后期處理程序,把微博raw data變成對(duì)話形式,并開(kāi)源。
當(dāng)然也歡迎有興趣的童鞋們給我提交PR,選取一個(gè)最佳方案,推動(dòng)本項(xiàng)目的進(jìn)展。
作者:Nicholas_Jela
鏈接:http://www.jianshu.com/p/4c748ef0c7f4
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
總結(jié)
以上是生活随笔為你收集整理的爬取微博对话语料制作聊天机器人的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: android linker 浅析
- 下一篇: Deep Learning for Ch