2020年美赛C题(数据分析题)O奖论文笔记 (1)
2021/01/30 upd:2020年美賽C題(數據分析題)O獎論文筆記 (2) 已經上傳,可戳這里查看!
這是我的第1篇論文筆記,如有哪里不好還請見諒并批評指正,之后會不斷改進!首先復現一下題目:
讀了第一段,我們感覺這應該是一道挺接地氣的題目。你想知道想淘寶、京東這些購物巨商是怎么從用戶點贊、評論的數據中調整戰略的嗎?接著往下看。
Sunshine公司要我們做的有兩件大事:1)告訴他們銷售策略;2)告知他們商品潛在的重要特性,好讓商品變得更有營銷力。
公司給我們提供了一些數據集。數據集有三個,代表三類不同產品,類似如下形式:
這些字段的含義如下:
接著介紹了本次題目的一些要求,我們一起來學習一下:
第1題是要我們數學建模,分析出star ratings,reviews,helpfulness ratings的內外關系。
2a:確定基于rating和review的評價衡量標準(給評價)
2b:確定基于時序的方法,評判一個產品的聲譽是在上升還是下降
2c:確定基于文本和星級的方法,評判一個產品是成功還是失敗的
2d:特定星級會引起更多的評論嗎?
2e:特定評論的關鍵詞,與星級有較大關聯嗎?
第3題是我們寫一封建議信。
之后是一些要求和說明:
以上就是C題的要求,下面簡單做一下其中一篇O獎論文的筆記。
標題直接告訴我們:探尋rating和review的秘密,直接量出論文分析處理的關鍵詞。
論文Summary寫作思路:
- 1段:緊扣材料重述問題
- 2段:概述問題1的解決思路
- 3段:概述問題2的解決思路,先提出了建模分析之后的結論
- 4段:說寫了一封信給Sunshine公司
- 5段:夸一下自己的模型
接下去是Introduction,和summary區別不大,只是加上了一些文章結構的描述。
The rest of the paper is organized as follows. In section 2, we list…
接著是假設和符號說明(Assumptions and Notations),下來逐個解決問題。
此部分主要構建文本打分模型。
本部分介紹了CE模型和VADER模型的一些建模實現:
-
篩選出種子詞:
作者在此處將詞語分成了5類,恰好對應五星級評價系統。
-
CE塊:
這里用的應該是上下文本信息熵,反正就是各種秀,用上了各種機器學習的公式。處理完之后到一個五維向量,從左到右,向量的每個值依次代表強負,弱負,中性,弱正,強正的概率。 -
VADER塊:
vader是一種基于詞庫和語法規則來進行文本情感識別的方法,發表于2014年的AAAI會議, github上地址是Github地址,這里處理完之后也是得到一個五維的向量。
-
CE和VADER的融合:
上面得到兩個五維向量的凸線性組合,得到一個文本的綜合評價。
這一部分確定出基于文本和評價的解決方案。提出了評論重要性(IMP),星級度量VEC(Sid)和文本度量INT(Rid)的關系式子:
很復雜。。。
這里用了DTW相似性評估了一下模型的效果(魯棒性)。
商品名譽的變化可以通過下面公式進行計算:
同樣還是挺復雜的,這篇文章的作者們似乎對公式理論的理解洞察深刻。
評價模型:
時間序列預測使用AR模型
用樸素貝葉斯給不同類情感詞打分
這里主要是根據數據分析的結果,提煉出商品受歡迎所具有的特征。
- pacifier:size,appearance,convenience,safety
- microwave:appearance,price,component
- hair dryer:power,appearance,safety,working volume
這里根據建模結果提出一些銷售戰略建議:
- 具有較多helpful votes的reviews應該得到重視
- 維持五星級,這跟產品名譽緊密相關
還有5~6條,這里就不一一列舉了。
Strengths
- 創新:首次提出使用CE-VADER模型來評價文本信息
- 準確:使用文本信息打分和星級打分高度一致
- 普適:換個數據集過來也可以分析
- 魯棒:參數魯棒
Weaknesses
- 注解關鍵詞非常耗時
- CE-VADER不能識別過去時動詞、形容詞比較級等
- 分析特定評價時,沒有將Amazon當時的營銷戰略考慮在內
measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.
reputation of three products
信件的細節就不細講了。這里寫的信件高中生也是可以看懂的,畢竟寫給企業高管,不要太學術化:
- 一段:說明一下工作成果
- 二段:信息評價模型幫助您跟蹤評價內容,并提出三種商品受歡迎的特征
- 三段:根據商品聲譽評測,斷定三類商品未來的發展趨勢
- 四段:提出一些建設性意見(參考建模過程)
總結
以上是生活随笔為你收集整理的2020年美赛C题(数据分析题)O奖论文笔记 (1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JS实现2048小游戏
- 下一篇: plsql developer 64位o