日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

余玄相似度,TF-IDF

發布時間:2024/8/26 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 余玄相似度,TF-IDF 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

能干什么?

  文章去重,語句去重,提取關鍵詞(文章摘要,頁面指紋),圖片識別,語音識別

想要做一個相似度,最重要的是什么?

  必須得到一個度量:計算個體之間的相似程度(分數,0-1之間,0代表完全不同,一代表完全一樣)

  相似度值越小,距離越大,相似度值越大,距離越小

  兩方面考慮:

    文本角度

    語義角度

      例如:這個菜真好吃

         這個菜真難吃 ? ? ? ? ? ---------- > 文本角度來看,相似度非常高,語義角度就非常低

最常用:

   余玄相似度??------> 計算兩個向量夾角的余玄來計算相似度

   ?一個向量空間中兩個向量夾角的余弦值作為衡量兩個個體之間差異的大小

   余弦值接近1,夾角趨于0,表明兩個向量越相似

   

    0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90°時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。這結果是與向量的長度無關的,僅僅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值為0到1之間。

    cos(?) =b/a

    cos0°=1

    cos90°=0

  ?

    如果向量a和b不是二維而是n維

?    

    舉個例子計算:

      x:(2,5)

      y:(4,9)

      cos(?)=2*4+5*9/sqrt(2*2+4*4)*sqrt(5*5+9*9)

  一旦有了向量就能計算相似度了,但是向量是怎么來的呢?

   繼續舉例子:

      句子1:這支筆好看,但顏色不適合。

      句子2:這支筆不好看,但顏色適合。

    對以上的兩個句子做分詞:

      句子1:這支/筆/好看,但/顏色/不合適

      句子2:這支/筆/不好看,但/顏色/合適

      word bag(詞包):這支,筆,好看,不好看,但,顏色,不合適,合適(集合:上面兩個句子去重,列出所有的詞) 

    計算詞頻:當上面句子的分詞在詞包中出現幾次就打幾(上述例子沒有多次的,所以都是1),不在就打0(一定嚴格按照詞包的順序)  

      句子1:這支1,筆1,好看1,不好看0,但1,顏色1,不合適1,合適0

      句子2:這支1,筆1,好看0,不好看1,但1,顏色1,不合適0,合適1

    詞頻向量化:

      句子1:(1,1,1,0,1,1,1,0)

      句子2:(1,1,0,1,1,1,0,1)

    套公式計算:

      cos(?)=1*1+1*1+1*0+0*1+1*1+1*1+1*0+0*1/sqrt(1*1+1*1+1*1+0*0+1*1+1*1+1*1+0*0)*sqrt(1*1+1*1+0*0+1*1+1*1+1*1+0*0+1*1)

處理流程:

    1.找到兩篇文章的關鍵詞

    2.每篇文章各取出若干個關鍵詞,合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(詞頻:一個詞語在這個句子中出現的頻率,一般來說一個詞語在這個句子中出現的次數越多就越重要)

    3.生成兩篇文章各自的詞頻向量

    4.計算兩個向量的余玄相似度,值越大就是越相似

?

詞頻:TF(Term Frequency)

    假設:一個詞很重要,應該會在文章中出現多次

    詞頻:一個詞在文章中出現的次數

    但是,出現次數最多的是“的”“是”“在”,嘆詞,狀語次,亂碼,標點等,這類最常出現的詞,叫做停用詞(stop words),一般使用黑名單(停用詞名單)把這些詞過濾掉。

    停用詞對結果毫無幫助,必須過濾掉的詞

反文檔頻率:IDF

    相當于一個詞被那些文章包含了,如果包含的文章越多,那么這歌詞就越沒有刻畫能力(100篇文章,99篇都包含,那這么次肯定不重要)

    這樣詞就用另外一個標量來表示:IDF

    最常見的詞(“的”、“是”、“在”)給予最小的權重

    較常見的詞(“國內”、“中國”、“報道”)給予較小的權重

    較少見的詞(“養殖”、“維基”)給予較小的權重

  將TF和IDF進行相乘,就得到了一個詞的TF-IDF值,某個詞對文章重要性越高,該值越大,于是排在前面的幾個詞,就是這篇文章的關鍵詞。(關于寫錯次的情況,隱馬爾可夫模型可以解決)

  IDF得統計多篇文章才能得到

計算步驟:

  拿原來的TF來計算,TF忽大忽小,非常不均勻,沒有很好的歸一,所以做了以下處理。

  詞頻(TF)= 某個詞在文章中出現的次數  

    詞頻標準化:

      1.詞頻(TF)=?某個詞在文章中出現的次數/文章的總詞數

      2.詞頻(TF)=?某個詞在文章中出現的次數/該文出現次數最多的詞的出現次數

  反文檔頻率(IDF)= log(語料庫的文檔總數/包含該詞的文檔數+1)

      log是把這個值壓縮到了一個范圍,包含該詞的文檔數+1是因為防止分母為0。包含該詞的文檔數越大這個詞就越不重要(可以參考log函數)。

TF-IDF = 詞頻(TF)*反文檔頻率(IDF)

    TF-IDF與一個詞在文檔中的出現次數成正比,與包含該詞的文檔數成反比。

總結:

    優點:簡單快速,結果比較符合實際情況  

    缺點:單純以“詞頻”做衡量標準,不夠全面,有時重要的次可能出現的次數并不多

轉載于:https://www.cnblogs.com/fishperson/p/10479580.html

總結

以上是生活随笔為你收集整理的余玄相似度,TF-IDF的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。