2020年美赛C题(数据分析题)O奖论文笔记 (2)
前言
題目可參見這里:C題
下面簡單做一下另外一篇O獎(jiǎng)?wù)撐牡墓P記,上一篇O獎(jiǎng)?wù)撐妮^難,這篇相對(duì)來說比較好讀。
論文
題目: 《在線銷售戰(zhàn)略:融合深度學(xué)習(xí)和差分模型的評(píng)論跟蹤系統(tǒng)》
作者用少量的語言介紹了一下background,接著講述了解決問題的一個(gè)overview.
- 首先基于star rating和review text設(shè)定了5個(gè)指標(biāo):average star rating,favorable rate,number of reviews,average number of review words,average review sentiment value. 使用TF-IDF算法提取關(guān)鍵詞,使用BP神經(jīng)網(wǎng)絡(luò)計(jì)算評(píng)論情感得分。通過這種方式,探索出了review sentiment和star rating之間的特定關(guān)系,并提出三種產(chǎn)品的設(shè)計(jì)焦點(diǎn)所在。
- 接著,建立差分模型,探索每個(gè)評(píng)價(jià)指標(biāo)隨時(shí)間和其他指標(biāo)的變化模式
- 最后,根據(jù)PCA,提出success index(成功指數(shù)),來評(píng)價(jià)三種產(chǎn)品成功與否,給出企業(yè)建議
接著,作者在第三段列舉出了4個(gè)建模得到的重要結(jié)論,這里不多說了,詳見原文。
倒數(shù)第二段說還給企業(yè)寫了一封信,此處也列出了信件的3個(gè)核心要點(diǎn).
最后一段用兩句話,夸了一下自己的模型(simple,effective,practical)
談了一下用戶購買數(shù)據(jù)對(duì)商家的潛在價(jià)值,簡單重述了一下問題,并掛出建模框架總圖 2 - Assumption
- 亞馬遜給出的數(shù)據(jù)是真實(shí)可用的. 辯解(justification): 題目要求只能使用提供的數(shù)據(jù)集,因此,在數(shù)據(jù)來源唯一的情況下,需要假設(shè)這些數(shù)據(jù)是available和reliable的!
- 外部環(huán)境影響因素不考慮進(jìn)來. 辯解: 認(rèn)為這三樣?xùn)|西都是生活必需品,受外部環(huán)境因素的影響可以忽略。
- Amazon的內(nèi)部系統(tǒng)不考慮進(jìn)來. 辯解: 因?yàn)閿?shù)據(jù)來源唯一,缺少Amazon內(nèi)部如監(jiān)控環(huán)境等的數(shù)據(jù),因此必須忽略Amazon的內(nèi)部系統(tǒng)才能繼續(xù)建模。
3- Nomenclature 4 - Data Processing and Analysis
4.1 數(shù)據(jù)清洗:
- 缺失值和異常值
- 只有一條評(píng)論的產(chǎn)品
- 2010年前交易數(shù)據(jù)(因?yàn)檫@些數(shù)據(jù)存在不連續(xù),占的比例也太多,盡管清洗吧~)
4.2 數(shù)據(jù)觀察:
4.2.1 產(chǎn)品生命周期觀察
定義產(chǎn)品的lifecycle為觀測(cè)到的第1條評(píng)論和最后1條評(píng)論的時(shí)間段
這幅圖講的大概是這么一個(gè)意思(以hair_dryer為例):活躍評(píng)論在3個(gè)月內(nèi)的hair_dryer品牌數(shù)有3個(gè),活躍評(píng)論在 3個(gè)月 ~ 1年內(nèi)的品牌數(shù)有11個(gè),如此下去… (筆者番外:就直覺來講,一個(gè)品牌的評(píng)論能夠活躍越長的時(shí)間,這個(gè)品牌口碑好的可能性較大)
從上圖還能提取到的一個(gè)重要信息是:所有商品數(shù)據(jù)的時(shí)間跨度至少在3個(gè)月以上,也就是說,可以 以季度為單位 做時(shí)間序列。
4.2.2 星級(jí)和文本指標(biāo) 變化趨勢(shì)
論文作者認(rèn)為helpfulness ratings對(duì)銷售的影響大,單獨(dú)抽出來。結(jié)果如上圖,每類商品都有兩條曲線,一條是 star rating-時(shí)間曲線,一條是 helpfulness ratings-時(shí)間曲線。
作者在計(jì)算評(píng)論對(duì)應(yīng)的星級(jí)時(shí),發(fā)現(xiàn)hair_dryer和pacifier的平均星級(jí)處于穩(wěn)定趨勢(shì),沒有什么顯著的變化;而microwave處于上升趨勢(shì)。但作者同時(shí)發(fā)現(xiàn),如果只計(jì)算helpful votes,那么三件產(chǎn)品的趨勢(shì)都是下降的。此外,作者認(rèn)為必須關(guān)注helpfulness ratings更多的reviews,helpfulness更多,對(duì)顧客的吸引力越大,能夠更好地預(yù)測(cè)未來商品走勢(shì)。
對(duì)于review文本,作者計(jì)算了review的總量和每條review平均的詞數(shù),發(fā)現(xiàn)三種商品的reviews數(shù)都是處于上升狀態(tài),而每條review平均的詞數(shù)都是下降趨勢(shì)。
對(duì)于文本的情感,鑒于目前尚未建立起一套完整的分析系統(tǒng),作者先定義滿足下面兩個(gè)要求的是情感傾向good的評(píng)論:
- 包含褒義詞
- 沒有貶義詞
附錄A舉出了這樣的詞語:
有了這個(gè)評(píng)價(jià)手段,就可以計(jì)算每個(gè)季度里三類產(chǎn)品的好評(píng)率。根據(jù)下圖,作者看出好評(píng)率呈現(xiàn)出強(qiáng)自相關(guān)。原文如下:
4.2.3 基于star ratings和基于文本 評(píng)價(jià)指標(biāo)關(guān)系
原文寫道:Obviously, there is a positive correlation between star ratings and percentage of favorable reviews – the higher the star ratings, the higher the percentage. Moreover, the numbers of reviews has no evident impacts on the percentage of favorable reviews. In addition, the average text word number does not have fixed effects on the percentage of favorable reviews.
就是說了以下三點(diǎn):
- star rating和好評(píng)率存在正相關(guān)
- reviews數(shù)量和好評(píng)率沒有明顯相關(guān)性
- reviews平均詞數(shù)和好評(píng)率沒有固定相關(guān)性
4.2.4 基于star ratings和文本的評(píng)價(jià)指標(biāo)
首先是star ratings 的評(píng)價(jià)指標(biāo):
Nt是在第 t 季度得到的評(píng)論數(shù),rj是第 j 條評(píng)論的星級(jí),vj是第 j 條評(píng)論的helpfulness,IVerified和IVined是indicator functions。
接著是文本的評(píng)價(jià)指標(biāo):
這里的ej需要接下來的模型幫助確定。
5.1 A Text Sentiment Analysis Model Based on Deep Learning
5.1.1 Steps of the Text Sentiment Analysis Model
作者首先做了關(guān)鍵詞抽取,因?yàn)殛P(guān)鍵詞是最能夠代表句子情感的。但是,在進(jìn)行抽取之前,先去掉所謂的停頓詞(stop words),附錄B記錄了891個(gè)stop words:
其次,作者使用TF-IDF算法抽取關(guān)鍵詞,TF-IDF是自然語言處理中使用的一種算法,這里不多講,上網(wǎng)學(xué)習(xí)一下就可以了。
再次,作者將這些關(guān)鍵詞轉(zhuǎn)化為詞向量。其實(shí)有兩種方法可以判定文本的情感,本文作者選擇了第2種:
- 第一種是查找情感字典,一般這些字典里面都已經(jīng)預(yù)定好了情感詞的參數(shù),判定的時(shí)候只需要根據(jù)計(jì)算方法把這些指標(biāo)綜合即可
- 第二種是深度學(xué)習(xí),將關(guān)鍵詞轉(zhuǎn)為數(shù)學(xué)向量,搭建并訓(xùn)練神經(jīng)網(wǎng)絡(luò)
首先對(duì)關(guān)鍵詞進(jìn)行計(jì)數(shù)并轉(zhuǎn)化為獨(dú)熱編碼:
但關(guān)鍵詞一多,這些向量也會(huì)變得很長,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)間將會(huì)十分緩慢。所以,作者還使用了連續(xù)詞袋模型,進(jìn)行降維。
最后,將詞向量轉(zhuǎn)為句子向量,用神經(jīng)網(wǎng)絡(luò)訓(xùn)練。通過上面的處理,可以得到各個(gè)關(guān)鍵詞向量。對(duì)于一個(gè)reivew,作者把這些詞向量求和平均,作為review的句向量。有了句向量后,將該向量送入神經(jīng)網(wǎng)絡(luò),最后得到一個(gè)代表review句子情感得分的值。訓(xùn)練需要訓(xùn)練數(shù)據(jù)集,作者如下處理:
整個(gè)深度學(xué)習(xí)框架用下圖總結(jié)(作者高妙之處,在合適的地方做階段總結(jié),且總結(jié)能用圖表就用圖表,實(shí)在不行才用文字)
5.1.2 Analysis of Model Results
上面的深度模型精度還挺高(94%),接下來要填上面的一個(gè)坑:
現(xiàn)在模型已經(jīng)有了,那么ej可以由模型來確定,也就是重新審視r(shí)eview和star rating的關(guān)系。
這張圖給出的信息量其實(shí)挺大,作者從中提煉出了以下信息:
- 2010-2012,中性和正面評(píng)論文本量化值與贊同率正相關(guān),但2012年后這種關(guān)系就不明顯了
- 三種產(chǎn)品的差評(píng)率和負(fù)面文本量化值的相關(guān)關(guān)系明顯。原文:
作者同時(shí)觀察統(tǒng)計(jì)了正負(fù)面評(píng)價(jià)對(duì)應(yīng)的星級(jí)高低,發(fā)現(xiàn)高星級(jí)會(huì)引發(fā)更多正面的評(píng)價(jià),但很難衡量低星級(jí)和負(fù)面評(píng)價(jià)之間的關(guān)系。
作者使用經(jīng)過TF-IDF算法提取之后的關(guān)鍵詞,來給sunshine公司提供產(chǎn)品建議。下面圖中,出現(xiàn)頻次最多的當(dāng)然是情感詞,其次是描述性形容詞(descriptive adjectives),然后是產(chǎn)品特征形容詞。
提出的建議如下(基本就是對(duì)癥下藥):
5.2 A Difference Equation Prediction Model
5.2.1 Correlation Analysis of Evaluation Indicators
計(jì)算ACF和PACF,以hair dryer為例,有:
如果指標(biāo)的一階ACF較大且拖尾,且一階PACF被截?cái)?#xff0c;則表明該指標(biāo)具有較強(qiáng)的一階自相關(guān)。結(jié)果表明,Nt在3種產(chǎn)品中均表現(xiàn)出明顯的自相關(guān),Pt和NtW在奶嘴和微波爐中表現(xiàn)出自相關(guān),而Rt和Et僅在吹風(fēng)機(jī)中表現(xiàn)出自相關(guān)。除了平均星級(jí)和平均情感值外,我們還驗(yàn)證了4.2.2節(jié)中其他三個(gè)指標(biāo)存在自相關(guān)的結(jié)論。在對(duì)幫助度評(píng)分、驗(yàn)證購買、vine設(shè)置不同權(quán)重后,每個(gè)季度的平均星級(jí)和情緒值基本保持穩(wěn)定。這說明這兩個(gè)指標(biāo)可能主要受其他指標(biāo)的影響,而不是它們本身。
接著使用皮爾遜相關(guān)系數(shù)觀測(cè)變量之間的相關(guān)性:
5.2.2 Construction of Difference Equation Model
上面測(cè)定了各參數(shù)的自相關(guān)性和與其他參數(shù)的相關(guān)性之后,建立如下的差分方程:
5.2.3 Results and Analysis of Parameter Fitting
作者將三種產(chǎn)品的參數(shù)丟進(jìn)模型進(jìn)行擬合:
通過分析參數(shù)的擬合結(jié)果,作者得出:
- star rating的提升與前季度star rating和情感值呈現(xiàn)負(fù)相關(guān)
- 好評(píng)率、reviews數(shù)量和情感值的提升也和前季度對(duì)應(yīng)的值負(fù)相關(guān)
這個(gè)現(xiàn)象看起來挺怪誕。為了探索上面現(xiàn)象出現(xiàn)的原因,作者還找到了證據(jù)(tqlb Orz),原因是存在Amazon’s click farming現(xiàn)象 點(diǎn)擊跳轉(zhuǎn)論文中出現(xiàn)的鏈接。
簡單來說,就是顧客看到過多的好評(píng),反而會(huì)覺得這樣不真實(shí)(可能是Amazon賣家雇傭了網(wǎng)絡(luò)水軍,在“網(wǎng)絡(luò)農(nóng)場(chǎng)”上“耕耘”),所以在好評(píng)率高的產(chǎn)品面前,可能會(huì)給出差評(píng)(有點(diǎn)負(fù)反饋的味道)。可以閱讀這個(gè)鏈接加深理解。
5.3 A Principal Component Analysis Model
5.3.1 Principle Introduction
這里簡要介紹了主成分分析PCA,這里就不展開說了。
5.3.2 Model Results and Construction of the Success Index
選擇累積方差貢獻(xiàn)率在90%以上的成分作為主成分,例如hair dryer的PCA結(jié)果如下:
5.3.3 Effectiveness and Application of the Success Index
success index對(duì)于區(qū)分successful的產(chǎn)品和unsuccessful的產(chǎn)品,是一個(gè)good indicator。
作者在之前訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),200條訓(xùn)練集數(shù)據(jù)通過人工標(biāo)注打分。為了驗(yàn)證深度學(xué)習(xí)的穩(wěn)定性,選取了5%和10%的text出來,這次不進(jìn)行人工標(biāo)注,直接觀察會(huì)對(duì)最終的情感分?jǐn)?shù)造成多大影響。
根據(jù)上面圖表,減少人工標(biāo)注的text對(duì)最終結(jié)果造成了很小的影響。這就說明建立的模型具有魯棒性,之前產(chǎn)生的情感分?jǐn)?shù)是可信、準(zhǔn)確的。
此外,作者還對(duì)產(chǎn)品success index做了靈敏度分析,發(fā)現(xiàn)參數(shù)的變化對(duì)模型的影響也不大。
7.1 Strengths
- 通過先進(jìn)深度學(xué)習(xí)模型,提高情感分析精度(參見5.1)
- 探索了基于時(shí)序的review數(shù)據(jù),結(jié)果與真實(shí)數(shù)據(jù)一致(參見5.2)
- 提供了一個(gè)簡單、有效和使用的追蹤系統(tǒng)給公司(參見5.3)
7.2 Weaknesses
- 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)間長,且需要的數(shù)據(jù)集大。However, once the network is trained, it can be used for a long time, so the time cost is relatively small.
- 模型最多只到2015年,但2015年之后的評(píng)價(jià)指標(biāo)可能會(huì)變。However, the patterns might change in the future, so it will be better to use the latest data.
概述了一下論文做的工作,通過模型得到的結(jié)論,闡述了一下Future work:
- 收集最新的數(shù)據(jù)
- 收集更具有代表性的reviews,從而對(duì)review文本的打分做出更精確的判斷
- 引入更多review的特征,得到更多有說服力的參數(shù),這里作者枚舉了圖片、評(píng)論者的信譽(yù)等等
接下去,作者闡述了建模過程中工作的概貌,但較少使用專業(yè)術(shù)語,顯得通俗易懂。最后是提出一些見解,這里挑幾個(gè)看看:
后記
最后推薦一些我個(gè)人覺得受用的學(xué)習(xí)或者工具鏈接:
[1] code-of-learn-deep-learning-with-pytorch(https://github.com/L1aoXingyu/code-of-learn-deep-learning-with-pytorch)
[2] 使用pytorch快速搭建BP神經(jīng)網(wǎng)絡(luò)(包含示例)(https://www.cnblogs.com/wangqinze/p/13424368.html)
[3] 八爪魚采集器-免費(fèi)網(wǎng)絡(luò)爬蟲軟件 (https://www.bazhuayu.com/)
[4] scikit-learn-Machine Learning in Python【python機(jī)器學(xué)習(xí)庫】(https://scikit-learn.org/stable/index.html)
[5] 美賽常用的建模方法 (https://blog.csdn.net/qq_45467148/article/details/104340051)
[6] nlp-pytorch-zh【自然語言處理】 (https://github.com/apachecn/nlp-pytorch-zh/tree/master/docs)
[7] LaTeX的"API"文檔 (https://blog.csdn.net/Gentleman_Qin/article/details/79963396)
[8] LaTeX的使用教程 (https://liam.page/2014/09/08/latex-introduction/)
[9] Excel數(shù)據(jù)分析 (https://www.zhihu.com/question/19754722)
[10] Excel數(shù)據(jù)透視 (https://zhuanlan.zhihu.com/p/36785151)
[11] 武漢大學(xué) - 黃正華的主頁 - LaTeX的詳盡用法與模板 (http://aff.whu.edu.cn/huangzh/)
[12] 時(shí)間序列-詳解 (https://www.biaodianfu.com/arima.html)
總結(jié)
以上是生活随笔為你收集整理的2020年美赛C题(数据分析题)O奖论文笔记 (2)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenGL ES 送显 YUV NV1
- 下一篇: SVN分支管理以及跨分支打包