日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年美赛C题(数据分析题)O奖论文笔记 (1)

發(fā)布時(shí)間:2023/12/14 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2020年美赛C题(数据分析题)O奖论文笔记 (1) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2021/01/30 upd:2020年美賽C題(數(shù)據(jù)分析題)O獎(jiǎng)?wù)撐墓P記 (2) 已經(jīng)上傳,可戳這里查看!

這是我的第1篇論文筆記,如有哪里不好還請見諒并批評(píng)指正,之后會(huì)不斷改進(jìn)!首先復(fù)現(xiàn)一下題目:

讀了第一段,我們感覺這應(yīng)該是一道挺接地氣的題目。你想知道想淘寶、京東這些購物巨商是怎么從用戶點(diǎn)贊、評(píng)論的數(shù)據(jù)中調(diào)整戰(zhàn)略的嗎?接著往下看。

Sunshine公司要我們做的有兩件大事:1)告訴他們銷售策略;2)告知他們商品潛在的重要特性,好讓商品變得更有營銷力。

公司給我們提供了一些數(shù)據(jù)集。數(shù)據(jù)集有三個(gè),代表三類不同產(chǎn)品,類似如下形式:

這些字段的含義如下:

接著介紹了本次題目的一些要求,我們一起來學(xué)習(xí)一下:

第1題是要我們數(shù)學(xué)建模,分析出star ratings,reviews,helpfulness ratings的內(nèi)外關(guān)系。

2a:確定基于rating和review的評(píng)價(jià)衡量標(biāo)準(zhǔn)(給評(píng)價(jià))

2b:確定基于時(shí)序的方法,評(píng)判一個(gè)產(chǎn)品的聲譽(yù)是在上升還是下降
2c:確定基于文本和星級(jí)的方法,評(píng)判一個(gè)產(chǎn)品是成功還是失敗的

2d:特定星級(jí)會(huì)引起更多的評(píng)論嗎?
2e:特定評(píng)論的關(guān)鍵詞,與星級(jí)有較大關(guān)聯(lián)嗎?

第3題是我們寫一封建議信。
之后是一些要求和說明:

以上就是C題的要求,下面簡單做一下其中一篇O獎(jiǎng)?wù)撐牡墓P記。


標(biāo)題直接告訴我們:探尋rating和review的秘密,直接量出論文分析處理的關(guān)鍵詞。

論文Summary寫作思路:

  • 1段:緊扣材料重述問題
  • 2段:概述問題1的解決思路
  • 3段:概述問題2的解決思路,先提出了建模分析之后的結(jié)論
  • 4段:說寫了一封信給Sunshine公司
  • 5段:夸一下自己的模型

接下去是Introduction,和summary區(qū)別不大,只是加上了一些文章結(jié)構(gòu)的描述。

The rest of the paper is organized as follows. In section 2, we list…

接著是假設(shè)和符號(hào)說明(Assumptions and Notations),下來逐個(gè)解決問題。







此部分主要構(gòu)建文本打分模型。

本部分介紹了CE模型和VADER模型的一些建模實(shí)現(xiàn):

  • 篩選出種子詞:

    作者在此處將詞語分成了5類,恰好對(duì)應(yīng)五星級(jí)評(píng)價(jià)系統(tǒng)。

  • CE塊:
    這里用的應(yīng)該是上下文本信息熵,反正就是各種秀,用上了各種機(jī)器學(xué)習(xí)的公式。處理完之后到一個(gè)五維向量,從左到右,向量的每個(gè)值依次代表強(qiáng)負(fù),弱負(fù),中性,弱正,強(qiáng)正的概率。

  • VADER塊:
    vader是一種基于詞庫和語法規(guī)則來進(jìn)行文本情感識(shí)別的方法,發(fā)表于2014年的AAAI會(huì)議, github上地址是Github地址,這里處理完之后也是得到一個(gè)五維的向量。

  • CE和VADER的融合:
    上面得到兩個(gè)五維向量的凸線性組合,得到一個(gè)文本的綜合評(píng)價(jià)。


這一部分確定出基于文本和評(píng)價(jià)的解決方案。提出了評(píng)論重要性(IMP),星級(jí)度量VEC(Sid)和文本度量INT(Rid)的關(guān)系式子:

很復(fù)雜。。。


這里用了DTW相似性評(píng)估了一下模型的效果(魯棒性)。



商品名譽(yù)的變化可以通過下面公式進(jìn)行計(jì)算:

同樣還是挺復(fù)雜的,這篇文章的作者們似乎對(duì)公式理論的理解洞察深刻。

評(píng)價(jià)模型:





時(shí)間序列預(yù)測使用AR模型









用樸素貝葉斯給不同類情感詞打分


這里主要是根據(jù)數(shù)據(jù)分析的結(jié)果,提煉出商品受歡迎所具有的特征。

  • pacifier:size,appearance,convenience,safety
  • microwave:appearance,price,component
  • hair dryer:power,appearance,safety,working volume


這里根據(jù)建模結(jié)果提出一些銷售戰(zhàn)略建議:

  • 具有較多helpful votes的reviews應(yīng)該得到重視
  • 維持五星級(jí),這跟產(chǎn)品名譽(yù)緊密相關(guān)

還有5~6條,這里就不一一列舉了。

Strengths

  • 創(chuàng)新:首次提出使用CE-VADER模型來評(píng)價(jià)文本信息
  • 準(zhǔn)確:使用文本信息打分和星級(jí)打分高度一致
  • 普適:換個(gè)數(shù)據(jù)集過來也可以分析
  • 魯棒:參數(shù)魯棒

Weaknesses

  • 注解關(guān)鍵詞非常耗時(shí)
  • CE-VADER不能識(shí)別過去時(shí)動(dòng)詞、形容詞比較級(jí)等
  • 分析特定評(píng)價(jià)時(shí),沒有將Amazon當(dāng)時(shí)的營銷戰(zhàn)略考慮在內(nèi)

  • Information Evaluation Model can combine the text-based measure with the rating-based
    measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.
  • We employ the Difference Equation Model to construct a “reputation rate” to quantify the
    reputation of three products
  • In analyzing the distribution of star ratings and specific words, we identified special review descriptors by employing a continuous extreme rating and a set of special words.

  • 信件的細(xì)節(jié)就不細(xì)講了。這里寫的信件高中生也是可以看懂的,畢竟寫給企業(yè)高管,不要太學(xué)術(shù)化:

    • 一段:說明一下工作成果
    • 二段:信息評(píng)價(jià)模型幫助您跟蹤評(píng)價(jià)內(nèi)容,并提出三種商品受歡迎的特征
    • 三段:根據(jù)商品聲譽(yù)評(píng)測,斷定三類商品未來的發(fā)展趨勢
    • 四段:提出一些建設(shè)性意見(參考建模過程)

    總結(jié)

    以上是生活随笔為你收集整理的2020年美赛C题(数据分析题)O奖论文笔记 (1)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。