日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从零到一spark进阶之路(三) pyspark 处理movies数据集(整理ING6-20)

發布時間:2023/12/29 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从零到一spark进阶之路(三) pyspark 处理movies数据集(整理ING6-20) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PySpark簡介

官方對PySpark的釋義為:“PySpark is the Python API for Spark”。 也就是說pyspark為Spark提供的Python編程接口。
Spark使用py4j來實現python與java的互操作,從而實現使用python編寫Spark程序。Spark也同樣提供了pyspark,一個Spark的python shell,可以以交互式的方式使用Python編寫Spark程序。

處理movies數據集

下面我通過PySpark對真實的數據集進行處理,并作圖形來分析。首先我需要介紹下數據集以及數據處理的環境。

數據概況

MovieLens數據集是由Minnesota大學的GroupLens Research Project對電影評分網站(movielens.umn.edu)收集的,數據集包含了1997年9月19日到1998年四月22日間共七個月的數據。這些數據已經被處理過了(清除了那些評分次數少于20次以及信息沒有填寫完整的數據)

MovieLens數據集:

MovieLens數據集,用戶對自己看過的電影進行評分,分值為1~5。MovieLens包括兩個不同大小的庫,適用于不同規模的算法.小規模的庫是943個獨立用戶對1682部電影作的10000次評分的數據(我是用這個小規模作數據處理和分析);通過對數據集分析,為用戶預測他對其他未觀看的電影的打分,將預測分值高的電影推薦給用戶,認為這些電影是用戶下一步感興趣的電影。

數據集結構:

1、943個用戶對1682場電影評分,評判次數為100000次,評分標準:1~5分。
2、每位用戶至少評判20場電影。
3、簡單地統計了用戶的一些信息 (age, gender, occupation, zip)

數據用途:

供科研單位和研發企業使用,可用于數據挖掘、推薦系統,人工智能等領域,復雜網絡研究等領域。

用戶年齡統計分析(PY3.5)

通過對用戶數據處理,獲得用戶信息中的年齡。然后對年齡進行統計并使用Python中的圖形框架Matplotlib生成柱狀圖,最后通過柱狀圖分析觀看電影的觀眾年齡分布趨勢。

參考文獻:
官網:http://spark.apache.org/docs/latest/api/python/index.html

總結

以上是生活随笔為你收集整理的从零到一spark进阶之路(三) pyspark 处理movies数据集(整理ING6-20)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。