日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

發布時間:2025/3/21 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Dataset之Rotten Tomatoes:Rotten Tomatoes影評數據集簡介、下載、使用方法之詳細攻略

?

?

?

目錄

Rotten Tomatoes影評數據集簡介

Rotten Tomatoes影評數據集下載

Rotten Tomatoes影評數據集使用方法


?

?

?

?

Rotten Tomatoes影評數據集簡介

? ? ? ?爛番茄(Rotten Tomatoes)網站影評短語數據,對電影進行評價。每個影評可以歸入下面5個類項:

  • 不給力(negative),
  • 不太給力(somewhat negative),
  • 中等(neutral),
  • 有點給力(somewhat positive),
  • 給力(positive)。

? ? ? 解釋變量不會總是直白的語言,因為影評內容千差萬別,有諷刺的,否定的,以及其他語義的表述,語義并不直白,這些都會讓分類充滿挑戰。

? ? ? Sentiment是響應變量,0是不給力(negative),4是給力(positive),其他以此類推。Phrase列是影評的內容。影評中每句話都被分割成一行。我們不需要考慮PhraseId列和SentenceId列。
? ? ?通過下邊的代碼,可以看出,近51%都是評價為2中等(neutral)的電影。可見,在這個問題里,準確率不是一個有信息量的評價指標,因為即使很爛的分類器預測出中等水平的結果,其準確率也是51%。3有點給力(somewhat positive)的電影占21%, 4給力(positive)的電影占6%,共占27%。剩下的21%就是不給力(negative),不太給力(somewhat negative)的電影。

?

Rotten Tomatoes影評數據集下載

Rotten Tomatoes影評數據集下載

?

?

Rotten Tomatoes影評數據集使用方法

import zipfile # 壓縮節省空間 z = zipfile.ZipFile('mlslpic/train.zip') df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')df.head() df.count() ------------------------- PhraseId 156060 SentenceId 156060 Phrase 156060 Sentiment 156060 dtype: int64df.Phrase.head(10) df.Sentiment.describe() ----------------------- count 156060.000000 mean 2.063578 std 0.893832 min 0.000000 25% 2.000000 50% 2.000000 75% 3.000000 max 4.000000 Name: Sentiment, dtype: float64df.Sentiment.value_counts() ----------------------- 2 79582 3 32927 1 27273 4 9206 0 7072 dtype: int64df.Sentiment.value_counts()/df.Sentiment.count() 2 0.509945 3 0.210989 1 0.174760 4 0.058990 0 0.045316 dtype: float64可以看出,近51%都是評價為2中等(neutral)的電影。可見,在這個問題里,準確率不是一個有信息量的評價指標, 因為即使很爛的分類器預測出中等水平的結果,其準確率也是51%。3有點給力(somewhat positive)的電影占21%, 4給力(positive)的電影占6%,共占27%。剩下的21%就是不給力(negative),不太給力(somewhat negative)的電影。

?

?

?

總結

以上是生活随笔為你收集整理的Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。