2020年美赛C题(数据分析题)O奖论文笔记 (1)
2021/01/30 upd:2020年美賽C題(數(shù)據(jù)分析題)O獎(jiǎng)?wù)撐墓P記 (2) 已經(jīng)上傳,可戳這里查看!
這是我的第1篇論文筆記,如有哪里不好還請見諒并批評(píng)指正,之后會(huì)不斷改進(jìn)!首先復(fù)現(xiàn)一下題目:
讀了第一段,我們感覺這應(yīng)該是一道挺接地氣的題目。你想知道想淘寶、京東這些購物巨商是怎么從用戶點(diǎn)贊、評(píng)論的數(shù)據(jù)中調(diào)整戰(zhàn)略的嗎?接著往下看。
Sunshine公司要我們做的有兩件大事:1)告訴他們銷售策略;2)告知他們商品潛在的重要特性,好讓商品變得更有營銷力。
公司給我們提供了一些數(shù)據(jù)集。數(shù)據(jù)集有三個(gè),代表三類不同產(chǎn)品,類似如下形式:
這些字段的含義如下:
接著介紹了本次題目的一些要求,我們一起來學(xué)習(xí)一下:
第1題是要我們數(shù)學(xué)建模,分析出star ratings,reviews,helpfulness ratings的內(nèi)外關(guān)系。
2a:確定基于rating和review的評(píng)價(jià)衡量標(biāo)準(zhǔn)(給評(píng)價(jià))
2b:確定基于時(shí)序的方法,評(píng)判一個(gè)產(chǎn)品的聲譽(yù)是在上升還是下降
2c:確定基于文本和星級(jí)的方法,評(píng)判一個(gè)產(chǎn)品是成功還是失敗的
2d:特定星級(jí)會(huì)引起更多的評(píng)論嗎?
2e:特定評(píng)論的關(guān)鍵詞,與星級(jí)有較大關(guān)聯(lián)嗎?
第3題是我們寫一封建議信。
之后是一些要求和說明:
以上就是C題的要求,下面簡單做一下其中一篇O獎(jiǎng)?wù)撐牡墓P記。
標(biāo)題直接告訴我們:探尋rating和review的秘密,直接量出論文分析處理的關(guān)鍵詞。
論文Summary寫作思路:
- 1段:緊扣材料重述問題
- 2段:概述問題1的解決思路
- 3段:概述問題2的解決思路,先提出了建模分析之后的結(jié)論
- 4段:說寫了一封信給Sunshine公司
- 5段:夸一下自己的模型
接下去是Introduction,和summary區(qū)別不大,只是加上了一些文章結(jié)構(gòu)的描述。
The rest of the paper is organized as follows. In section 2, we list…
接著是假設(shè)和符號(hào)說明(Assumptions and Notations),下來逐個(gè)解決問題。
此部分主要構(gòu)建文本打分模型。
本部分介紹了CE模型和VADER模型的一些建模實(shí)現(xiàn):
-
篩選出種子詞:
作者在此處將詞語分成了5類,恰好對(duì)應(yīng)五星級(jí)評(píng)價(jià)系統(tǒng)。
-
CE塊:
這里用的應(yīng)該是上下文本信息熵,反正就是各種秀,用上了各種機(jī)器學(xué)習(xí)的公式。處理完之后到一個(gè)五維向量,從左到右,向量的每個(gè)值依次代表強(qiáng)負(fù),弱負(fù),中性,弱正,強(qiáng)正的概率。 -
VADER塊:
vader是一種基于詞庫和語法規(guī)則來進(jìn)行文本情感識(shí)別的方法,發(fā)表于2014年的AAAI會(huì)議, github上地址是Github地址,這里處理完之后也是得到一個(gè)五維的向量。
-
CE和VADER的融合:
上面得到兩個(gè)五維向量的凸線性組合,得到一個(gè)文本的綜合評(píng)價(jià)。
這一部分確定出基于文本和評(píng)價(jià)的解決方案。提出了評(píng)論重要性(IMP),星級(jí)度量VEC(Sid)和文本度量INT(Rid)的關(guān)系式子:
很復(fù)雜。。。
這里用了DTW相似性評(píng)估了一下模型的效果(魯棒性)。
商品名譽(yù)的變化可以通過下面公式進(jìn)行計(jì)算:
同樣還是挺復(fù)雜的,這篇文章的作者們似乎對(duì)公式理論的理解洞察深刻。
評(píng)價(jià)模型:
時(shí)間序列預(yù)測使用AR模型
用樸素貝葉斯給不同類情感詞打分
這里主要是根據(jù)數(shù)據(jù)分析的結(jié)果,提煉出商品受歡迎所具有的特征。
- pacifier:size,appearance,convenience,safety
- microwave:appearance,price,component
- hair dryer:power,appearance,safety,working volume
這里根據(jù)建模結(jié)果提出一些銷售戰(zhàn)略建議:
- 具有較多helpful votes的reviews應(yīng)該得到重視
- 維持五星級(jí),這跟產(chǎn)品名譽(yù)緊密相關(guān)
還有5~6條,這里就不一一列舉了。
Strengths
- 創(chuàng)新:首次提出使用CE-VADER模型來評(píng)價(jià)文本信息
- 準(zhǔn)確:使用文本信息打分和星級(jí)打分高度一致
- 普適:換個(gè)數(shù)據(jù)集過來也可以分析
- 魯棒:參數(shù)魯棒
Weaknesses
- 注解關(guān)鍵詞非常耗時(shí)
- CE-VADER不能識(shí)別過去時(shí)動(dòng)詞、形容詞比較級(jí)等
- 分析特定評(píng)價(jià)時(shí),沒有將Amazon當(dāng)時(shí)的營銷戰(zhàn)略考慮在內(nèi)
measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.
reputation of three products
信件的細(xì)節(jié)就不細(xì)講了。這里寫的信件高中生也是可以看懂的,畢竟寫給企業(yè)高管,不要太學(xué)術(shù)化:
- 一段:說明一下工作成果
- 二段:信息評(píng)價(jià)模型幫助您跟蹤評(píng)價(jià)內(nèi)容,并提出三種商品受歡迎的特征
- 三段:根據(jù)商品聲譽(yù)評(píng)測,斷定三類商品未來的發(fā)展趨勢
- 四段:提出一些建設(shè)性意見(參考建模過程)
總結(jié)
以上是生活随笔為你收集整理的2020年美赛C题(数据分析题)O奖论文笔记 (1)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JS实现2048小游戏
- 下一篇: plsql developer 64位o