日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

潜在语义分析(Latent Semantic Analysis,LSA)

發布時間:2024/7/5 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 潜在语义分析(Latent Semantic Analysis,LSA) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 1. 單詞向量空間、話題向量空間
      • 1.1 單詞向量空間
      • 1.2 話題向量空間
    • 2. 潛在語義分析算法
      • 2.1 例子
    • 3. 非負矩陣分解算法
    • 4. TruncatedSVD 潛在語義分析實踐

  • 一種無監督學習方法,主要用于文本的話題分析
  • 其特點是通過矩陣分解發現文本與單詞之間的基于話題的語義關系
  • 最初應用于文本信息檢索,也被稱為潛在語義索引(latent semantic indexing,LSI),在推薦系統、圖像處理、生物信息學等領域也有廣泛應用

文本信息處理中:

  • 傳統的方法以單詞向量表示文本的語義內容,以單詞向量空間的度量表示文本之間的語義相似度
  • 潛在語義分析 旨在 解決這種方法不能準確表示語義的問題,試圖從大量的文本數據中發現潛在的話題
  • 話題向量表示文本的語義內容,以話題向量空間的度量更準確地表示文本之間的語義相似度

潛在語義分析使用的是非概率的話題分析模型

  • 將文本集合表示為單詞-文本矩陣
  • 對單詞-文本矩陣進行奇異值分解,從而得到話題向量空間,以及文本在話題向量空間的表示

非負矩陣分解(non-negative matrix factorization,NMF)是另一種矩陣的因子分解方法,其特點是分解的矩陣非負。非負矩陣分解也可以用于話題分析。

1. 單詞向量空間、話題向量空間

1.1 單詞向量空間

文本信息處理的一個核心問題是對文本的語義內容進行表示,并進行文本之間的語義相似度計算

  • 利用向量空間模型(vector space model,VSM),也就是單詞向量空間模型(word vector space model)。
  • 基本想法:用一個向量表示文本的“語義”,向量的每一維對應一個單詞,其數值為該單詞在該文本中出現的頻數或權值
  • 基本假設
    文本中所有單詞的出現情況表示了文本的語義內容;
    文本集合中的每個文本都表示為一個向量,存在于一個向量空間;
    向量空間的度量,如內積或標準化內積表示文本之間的“語義相似度”。

  • 單詞文本矩陣是稀疏矩陣,元素為頻數或權值
  • 權值:常用單詞頻率-逆文本頻率(term frequency-inverse document frequency,TF-IDF)表示,其定義是


單詞向量空間模型的優點:

  • 是模型簡單,計算效率高。因為單詞向量通常是稀疏的,兩個向量的內積計算只需要在其同不為零的維度上進行即可,需要的計算很少,可以高效地完成

單詞向量空間模型也有一定的局限性:

  • 內積相似度未必能夠準確表達兩個文本的語義相似度上
  • 因為自然語言的單詞具有一詞多義性(polysemy)及多詞一義性(synonymy),所以基于單詞向量的相似度計算存在不精確的問題

1.2 話題向量空間

話題(topic),就是指文本所討論的內容或主題。

  • 一個文本一般含有若干個話題
  • 如果兩個文本的話題相似,那么兩者的語義應該也相似
  • 話題由若干個語義相關的單詞表示
  • 同義詞(如“airplane”與“aircraft”)可以表示同一個話題
  • 而多義詞(如“apple”)可以表示不同的話題

這樣,基于話題的模型就可以解決上述基于單詞的模型存在的問題。

定義一種話題向量空間模型(topic vector space model)

  • 給定一個文本,用話題空間的一個向量表示該文本,該向量的每一分量對應一個話題,其數值為該話題在該文本中出現的權值
  • 用兩個向量的內積或標準化內積表示對應的兩個文本的語義相似度
  • 注意話題的個數通常遠遠小于單詞的個數,話題向量空間模型更加抽象
  • 潛在語義分析正是構建話題向量空間的方法(即話題分析的方法)
  • 單詞向量空間模型與話題向量空間模型互為補充,兩者可以同時使用

單詞-文本矩陣XXX 近似為:單詞-話題矩陣TTT & 話題-文本矩陣YYY 的乘積形式,X≈TYX \approx TYXTY


2. 潛在語義分析算法

潛在語義分析 利用 矩陣奇異值分解(SVD),對單詞-文本矩陣進行奇異值分解

  • 左矩陣 作為話題向量空間
  • 對角矩陣右矩陣的乘積 作為 文本在話題向量空間的表示

潛在語義分析 根據 確定的話題個數k 對單詞-文本矩陣XXX進行截斷奇異值分解

2.1 例子



3. 非負矩陣分解算法

非負矩陣分解 也可以用于 話題分析

  • 對單詞-文本矩陣進行非負矩陣分解
  • 左矩陣作為話題向量空間
  • 右矩陣作為文本在話題向量空間的表示。注意通常單詞-文本矩陣是非負的(所有元素 >= 0)

定義:找到兩個非負矩陣乘積近似表示一個非負矩陣
X≈WH,X≥0,W≥0,H≥0X \approx WH,X \ge 0, W\ge 0, H \ge 0XWHX0,W0,H0
WWW 為基矩陣,表示話題空間,HHH 為系數矩陣,是文本在話題空間的表示。
非負矩陣分解 旨在 用較少的基向量、系數向量 來 表示較大的數據矩陣

非負矩陣分解 可以表為以下的最優化問題:
min?∣∣X?WH∣∣2st.W,H≥0\min ||X-WH||^2\\ st. \quad W,H \ge 0minX?WH2st.W,H0

非負矩陣分解的算法是迭代算法

  • 乘法更新規則的迭代算法,交替地對WWWHHH進行更新。
  • 本質是梯度下降法,通過定義特殊的步長和非負的初始值,保證迭代過程及結果的矩陣WWWHHH均為非負

4. TruncatedSVD 潛在語義分析實踐

基于sklearn.decomposition.TruncatedSVD的潛在語義分析實踐

總結

以上是生活随笔為你收集整理的潜在语义分析(Latent Semantic Analysis,LSA)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产三级在线免费 | 自拍偷拍色综合 | 国产一卡二卡在线 | 波多野吉衣一二三区乱码 | 亚洲欧洲国产视频 | 黄色网址视频 | 久草视频在线免费看 | 色婷婷激情五月 | 国产网站黄色 | 伊人手机视频 | 成人h动漫精品一区二区下载 | 丰满饥渴老女人hd | 91久| 男人插女人的网站 | 日韩av在线网址 | 蜜臀精品一区二区三区 | 极品美女av | 欧洲成人精品 | 青娱乐在线视频免费观看 | 波多野结衣片子 | 在线播放91灌醉迷j高跟美女 | 黄色一级在线观看 | 国产精品久久久99 | 亚洲一区你懂的 | 久久免费小视频 | 日韩视频中文字幕在线观看 | 日本久久成人 | 伊人久久99 | 日韩中文字幕一区 | 无码人妻丰满熟妇区毛片18 | 天天干狠狠操 | av在线不卡播放 | 日本女v片 | 欧美偷拍一区二区 | 亚洲福利一区二区 | av无码一区二区三区 | 国产精品久久久久电影 | 久久亚洲AV无码专区成人国产 | 神宫寺奈绪一区二区三区 | 国产精品九 | 久久人妻少妇嫩草av无码专区 | 亚洲欧洲无码一区二区三区 | 岛国视频一区 | 中文字幕日本在线观看 | 喷潮在线 | 美女搞黄视频网站 | 国产视频久久久久 | 日产国产亚洲精品系列 | 色综合av| 免费观看黄色一级片 | 久久婷婷影院 | 三级特黄视频 | 色综合一区 | 久久九九热视频 | 久久婷婷网站 | 国产成人无码a区在线观看视频 | 懂色av蜜臂av粉嫩av | 最近中文字幕mv免费高清在线 | 国产又粗又猛视频 | 久久一级电影 | 国产成人综合视频 | 女性裸体视频网站 | 色视频线观看在线播放 | 天天综合亚洲 | 亚洲成人午夜影院 | 日韩人妻一区二区三区蜜桃视频 | 亚洲一区二区影院 | 国产成人精品一区二区三区在线 | 欧美另类videosbestsex | 日本欧美黄色 | 哈利波特3在线观看免费版英文版 | 午夜男人网 | 欧美一区永久视频免费观看 | 国产在线一卡二卡 | 91天堂视频| 成年人黄国产 | 男女做爰真人视频直播 | 99久久精品一区二区三区 | 亚洲免费自拍 | 蜜臀网在线 | 天天干夜夜艹 | 久久久久免费精品视频 | 色欲久久久天天天综合网精品 | 无码人妻精品一区二区三区66 | 黑人导航 | 插插插色综合 | 嫩草av在线 | 一区二区美女 | 中文字幕乱码在线人视频 | 成人免费超碰 | 国产欧美在线播放 | 久久影视中文字幕 | 蜜臀99久久精品久久久久久软件 | 中文无码精品一区二区三区 | 白白色2012年最新视频 | 日日噜噜噜噜久久久精品毛片 | 禁断介护av一区二区 | 精品国产1区 | 人妻精品久久久久中文字幕 |