日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

UNE BASE SIMPLE MAIS PARFAITE POUR SENTENCE EMBEDDINGS(一个简单但很难超越的Sentence Embedding基线方法)

發(fā)布時(shí)間:2023/12/8 ChatGpt 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UNE BASE SIMPLE MAIS PARFAITE POUR SENTENCE EMBEDDINGS(一个简单但很难超越的Sentence Embedding基线方法) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

法語(yǔ)簡(jiǎn)介:
ABSTRAIT
Le succès des méthodes de réseau de neurones pour le calcul des intégrations de mots a conduit à des méthodes activées pour générer des encha?nements sémantiques de textes plus longs, tels que des phrases et des paragraphes. étonnamment, Wieting et al (ICLR’16) ont montré que ces méthodes compliquées sont plus performantes, en particulier dans les contextes hors domaine (apprentissage par transfert), par des méthodes plus simples impliquant une rééducation légère des mots incorporés et une régression linéaire de base. La méthode de Wieting et al. nécessite un recyclage avec un ensemble de données étiqueté substantiel tel que la base de données Paraphrase (Ganitkevitch et al., 2013).
Le document actuel va plus loin, montrant que l’inclusion de phrases non divulguées ci-dessous est une base de référence formidable: Utilisez des mots incorporés à l’aide d’une des méthodes les plus répandues sur des corpus non étiquetés comme Wikipedia. vecteurs de mots, puis modifiez-les un peu en utilisant PCA / SVD. Cette pondération améliore les performances d’environ 10% à 30% dans les taches de similarité textuelle, et surpasse les méthodes supervisées sophistiquées, notamment les RNN et les LSTM. Cela améliore même les intégrations de Wieting et al. Cette méthode simple devrait être utilisée comme base de référence à l’avenir, en particulier lorsque les données de formation étiquetées sont rares ou inexistantes.
Le papier donne également une explication théorique du succès de la méthode non surveillée ci-dessus utilisant un modèle générateur de variables latentes pour les phrases, qui est une simple extension du modèle dans Arora et al. (TACL’16) avec de nouveaux termes de ?lissage? qui permettent de faire appara?tre des mots hors contexte, ainsi que des probabilités élevées pour des mots comme et, pas dans tous les contextes.

  • INTRODUCTION
    Les Word embeddings calculées à l’aide de diverses méthodes sont les composantes de base du traitement du langage naturel (NLP) et de la recherche d’informations (IR). Ils capturent les similitudes entre les mots (par exemple, (Bengio et al., 2003; Collobert et Weston, 2008; Mikolov et al., 2013a; Pennington et al., 2014)). Des travaux récents ont tenté de calculer des incorporations qui capturent la sémantique des séquences de mots (phrases, phrases et paragraphes), avec des méthodes allant de la simple composition additionnelle des vecteurs à des architectures sophistiquées telles que les réseaux neuronaux Iyyer et al., 2015; Le & Mikolov, 2014; Kiros et coll., 2015; Socher et coll., 2011; Blunsom et coll., 2014; Tai et coll., 2015; Wang et coll., 2016)). Récemment, (Wieting et al., 2016) ont appris les encha?nements de phrases paraphrastiques à usage général en commen?ant par des mots standard et en les modifiant en se basant sur le jeu de données Paraphrase (PPDB). modèle de moyenne. Cette méthode simple permet d’obtenir de meilleures performances sur les taches de similarité textuelle qu’une grande variété de méthodes et constitue une bonne initialisation pour les taches de classification textuelle. Cependant, la supervision à partir du jeu de données paraphrase semble cruciale, car ils signalent que la moyenne simple des termes initiaux ne fonctionne pas très bien.
  • Nous donnons ici une nouvelle méthode d’incorporation de phrases qui est d’une simplicité embarrassante: calculez simplement la moyenne pondérée des vecteurs de mots dans la phrase, puis supprimez les projections des vecteurs moyens sur leur première composante principale (?suppression de composants communs?). Ici, le poids d’un mot w est a / (a ??+ p (w)) avec un paramètre et p (w) la fréquence de mot (estimée); nous appelons
    1
    Publié en tant que document de conférence à l’ICLR 2017
    cette fréquence inverse lisse (SIF). Cette méthode permet d’obtenir des performances significativement supérieures à la moyenne non pondérée sur diverses taches de similarité textuelle, et sur la plupart de ces taches, même sur certaines méthodes sophistiquées testées (Wieting et al., 2016), y compris certains modèles RNN et LSTM. Le procédé est bien adapté aux paramètres d’adaptation de domaine, c’est-à-dire que des vecteurs de mots formés sur divers types de corpus sont utilisés pour calculer les encha?nements de phrases dans différents bancs de test. Il est également assez robuste au schéma de pondération: utiliser les fréquences de mots estimées à partir de différents corpus ne nuit pas aux performances; une large gamme de paramètres peut atteindre des résultats proches des meilleurs, et une gamme encore plus large peut permettre une amélioration significative par rapport à la moyenne non pondérée.
    Bien s?r, cette repondération SIF rappelle fortement la repondération de TF-IDF à partir de la recherche d’informations (Sparck Jones, 1972; Robertson, 2004) si l’on considère une ?phrase? comme un ?document? et suppose raisonnablement que la phrase ne contiennent généralement des mots répétés. De telles repondérations (ou des idées apparentées telles que la suppression de mots fréquents du vocabulaire) sont une bonne règle de base mais n’ont pas de justification théorique dans un contexte d’intégration de mots.
    L’article actuel fournit une justification théorique pour la repondération en utilisant un modèle génératif pour les phrases, qui est une modification simple du modèle Random Walk on Discourses pour générer du texte (Arora et al., 2016). Dans cet article, il a été noté que le modèle implique théoriquement l’incorporation d’une phrase, à savoir la moyenne simple des encastrements de tous les mots.
    Nous modifions ce modèle théorique, motivé par l’observation empirique que la plupart des méthodes d’intégration de mots, car elles cherchent à capturer des probabilités de co?ncidence des mots en utilisant un produit interne vectoriel, finissent par donner de grands vecteurs à des mots fréquents. , simplement pour tenir compte de l’observation empirique selon laquelle les mots sont parfois hors contexte dans les documents. Ces anomalies font que la moyenne des vecteurs de mots ont des composantes énormes dans des directions sémantiquement sans signification. Notre modification du modèle génératif de (Arora et al., 2016) permet de ?lisser? les termes, puis un calcul de la probabilité maximale conduit à notre repondération SIF.
    Fait intéressant, ce SIF théoriquement dérivé fait mieux (de quelques points de pourcentage) que le TF-
    IDF dans notre cadre. La méthode améliore également les encha?nements de phrases de Wieting et al.
    dans le tableau 1. Enfin, nous avons découvert que - contrairement à la croyance répandue - Word2Vec (CBOW)
    n’utilise pas la moyenne simple des vecteurs de mots dans le modèle, comme suggéré de manière trompeuse par les
    expression Pr [w | w1, w2, …, w5] ∝ exp (vw · (1 vwi)). Une fouille dans l’implémentation montre 5i
    elle utilise implicitement une moyenne pondérée de vecteurs de mots - principale, différente de TF-IDF - et cette pondération se révèle tout à fait similaire à la n?tre. (Voir la section 3.1.)

    中文介紹:

    第一步,對(duì)每個(gè)詞向量乘以相應(yīng)的權(quán)值,這個(gè)權(quán)值與該詞語(yǔ)頻率相關(guān),求和后得到暫定的句向量。
    第二步,計(jì)算語(yǔ)料庫(kù)所有句向量構(gòu)成的矩陣的第一主成分u,讓每個(gè)句向量減去它在u上的投影(類似PCA)。

    效果:
    在句子相似度任務(wù)上超過(guò)平均水平,甚至超過(guò)部分復(fù)雜的模型。在句子分類上效果也很明顯,甚至是最好成績(jī)。

    總結(jié)

    以上是生活随笔為你收集整理的UNE BASE SIMPLE MAIS PARFAITE POUR SENTENCE EMBEDDINGS(一个简单但很难超越的Sentence Embedding基线方法)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 玖玖在线精品 | 久久经典 | 国产福利社 | 亚洲国产精品成人综合 | 野外一级片 | 手机成人av在线 | 男插女在线观看 | 成人久久一区二区 | 欧美中文字幕一区二区 | 国产18一19sex性护士 | 国产美女福利在线 | 亚洲精品免费在线播放 | 麻豆国产尤物av尤物在线观看 | 杨贵妃颤抖双乳呻吟求欢小说 | jizz欧美性20 | 国产精品久久久久久久久久直播 | 91久久在线 | 日韩精品国产一区 | 96看片| 成人在线观看av | 欧美成人精品 | 午夜精品网站 | 久草视频精品在线 | 在线观看va | 国产 日韩 欧美 精品 | 日韩成人高清视频在线观看 | 中文资源在线播放 | av免费资源 | 毛片入口 | 亚洲一区二区三区四区五区六区 | 亚洲品质自拍视频 | 国产不雅视频 | 色狠狠一区 | 字幕网在线观看 | 爱操在线| 中文字幕有码在线播放 | 四虎影院国产精品 | 久久综合狠狠 | 另类老妇性bbwbbw图片 | 日本午夜电影网站 | 在线视频观看你懂得 | 一本大道av | 男人操女人的网站 | 琪琪色综合网 | 色屁屁| 视频一区二区欧美 | 国产成人在线观看免费网站 | 欧美大黄视频 | 开心激情五月婷婷 | 精品在线第一页 | 成人 黄 色 免费播放 | av簧片| 欧美性大战久久久 | 亚洲精选国产 | 国产精品久久久久久吹潮 | 中文字幕亚洲日本 | 中文字幕+乱码+中文字幕明步 | 黄色污污网站在线观看 | 国产综合久久久久久鬼色 | 日本a级一区 | 日韩国产在线观看 | 精品国产一区二区视频 | 欧美黄页 | 香蕉久久视频 | 欧美日韩国产精品一区二区 | 国产一区二区三区四区 | 嫩草研究院在线 | 91精品国产自产在线观看 | 成人在线视频在线观看 | 日韩国产精品一区 | 久久久久久国产精品免费播放 | 国产高清色 | 亚洲午夜福利一区二区三区 | 午夜宅男影院 | 日韩成人在线免费观看 | 51嘿嘿嘿国产精品伦理 | 日韩毛片在线免费观看 | 国产在线视频不卡 | 婷婷九月丁香 | 欧美少妇诱惑 | 在线观看成人网 | av在线操 | 国产 日韩 欧美在线 | 波多野结衣在线电影 | 国产丝袜视频在线 | 成年人性生活免费视频 | 午夜高潮视频 | 国产亚洲精品精品国产亚洲综合 | 久久综合影视 | www国产com| 欧美精品亚洲一区 | 麻豆视频网址 | 久久久久久蜜桃 | 欧美三级视频 | 久色91| 成人毛片在线免费观看 | 久草视频免费看 | 粉嫩av四季av绯色av | 免费20分钟超爽视频 |