日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

针对科技文章的多标签分类

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 针对科技文章的多标签分类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

0. 起

  最近沒有更新。暑假之后學的東西也比較雜,看了一下基于DL的智能美顏,感覺入了個大坑。前前后后看了傳統的輪廓提取算法和FCN等等,調代碼巴拉巴拉幾個星期就這么過了。前幾天看ACM的best paper也覺得很有意思,兩個步驟:1)給圖片打標題,屬于多媒體計算和NLP的結合 2)由標題生成詩歌。感覺這里面可以學的東西也有很多。等項目結束論文寫完一定好好的順著學一遍,看京都大學團隊說近期會公布數據集,不錯不錯。

  最近是在看論文和弄實驗室的項目。之前的短評預測預訂明年的一個項目,而今年的題目是:新知識抽取與發現。主要是針對科技文章的,也就是知網文章。我在想怎么做這個題目的時候也是百般思考(因為這個題目是去年訂的,沒有經過我的手),如何體現新知識?抽取與發現在NLP倒是老生常談,提取主題、摘要、關鍵字,發現無非也就是分類或者打標簽。

  之前已經畢業的師兄是有一套完整的單標簽代碼的,包含他的畢業論文一同給了我參考。這里也可以簡單說一下打標簽和分類的區別,也方便捋清思路。好比你在淘票票上買電影票,點進電影介紹,它會告訴你這是一部18R/成人向/.../的電影,這就是一個分類;而電影的類型是Comedy/Tragedy/.../Family and Comedy,這就是多標簽,即可以存在交叉項或是合并項。所以我合計著師兄的單標簽其實也就是分類....

  為什么我不用師兄的呢,可以省很多事情,連答辯PPT都有改一改去糊弄一下甲方就完事。在我的理解里面,交叉學科最容易產生新知識,甚至是新科學。計算機+智能形成了近年來很火的人工智能領域,金融+數學的結合成為了金融工程,這都是新知識新領域的誕生。IG進入S賽決賽,那提及一下傳媒+電競+主持等等你能想到什么呢,不僅是新知識,新崗位也出現了。所以,從多標簽的角度去闡述新知識更有意義。

1. 承

  前面廢話了很多,其實也就是想說明白我這個偽邏輯。既然針對知網文章,那么如何爬取一個文本--多標簽對的數據集就尤為關鍵了。在這里我們也想了很多辦法,包括知網本身也有一些奇奇怪怪的反爬機制,這一塊我交給學弟去做了,也是煞費時間。

  知網本身沒有明顯的多標簽痕跡,它把文章的分類放在一個動態加載frame里面。我們按照高級檢索欄的10來個大類*10來個子欄進行爬取,選取每篇文章的標題、摘要、多標簽。目前進展有10W+數據,數據還在更新中。(用的學校的公網ip,似乎沒有被封)為什么要按照這種方式爬取呢,主要是為了各個類別標簽下的文章數量分布均勻。不然訓練出某些詞向量會導致比重失衡。

圖1 按知網的分類進行爬取

  然后具體每篇文章的爬取內容如下,多標簽可以爬取一級、二級甚至三級標簽。我們爬取了一級和二級。主要是防止三級標簽太多導致稀疏問題,訓練時難以收斂,測試時結果可以也會和預期相去甚遠。當然具體的選擇可以根據自己的項目來做決定。

圖2 爬取內容

  存放呢。所有數據先寫入excel之后再進行整理。第一列設定一個ID,第二列標題,第三列摘要,第四列一級標簽,第五列二級標簽。然后將按文章,將題目和摘要整理到一個txt,標題一行摘要一行;將label整理到一個txt。這兩個文件按id命名,只是后綴不同。最后再將所有的標簽匯總到一個文件方便讀寫,一個標簽一行。目前為止我們總共收集了120+標簽。

2. 轉

10.29寫完上面的。直到現在還是沒時間更新后面的。項目結項了,然后施工論文ing。累。先貼幾張圖吧,之后有時間再繼續更,大概過年的時候了吧。


2018.12.10 16:53 更新

To be continue


?

?

轉載于:https://www.cnblogs.com/catallen/p/9869321.html

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的针对科技文章的多标签分类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。