python爬虫与数据分析实战27_Python网络爬虫与文本数据分析
原標題:Python網絡爬蟲與文本數據分析
課程介紹
在過去的兩年間,Python一路高歌猛進,成功竄上“最火編程語言”的寶座。驚奇的是使用Python最多的人群其實不是程序員,而是數據科學家,尤其是社會科學家,涵蓋的學科有經濟學、管理學、會計學、社會學、傳播學、新聞學等等。
大數據時代到來,網絡數據正成為潛在寶藏,大量商業信息、社會信息以文本等非結構化、異構型數據格式存儲于網頁中。非計算機專業背景的人也可借助機器學習、人工智能等方法進行研究。使用網絡世界數據進行研究,面臨兩大難點:
數據的獲取
文本(非結構化)數據的處理與分析
數據獲取需要借助Python編程語言設計網絡爬蟲,而獲得的數據中有相當比例數據是非結構化數據,這就需要文本數據分析技術。本次課程參照已發表的社科類的文章,希望幫助大家解決文本分析這最難的兩大難點。課程設計的初衷是用最少的時間讓大家學到最有用的知識點,降低學習難度。希望學習完本課程后能讓各位結合研究需要對自己學科內的文本分析有一個全面深刻的了解,方便各位開展后續研究。
課程試聽
課程python語法入門和網絡爬蟲部分可免費試聽,對python感興趣的童鞋可以收藏觀看~
試聽
支付成功后,可下載騰訊課堂app或網頁端打開騰訊課堂官網,使用微信掃碼登錄后即可學習
目錄
一、準備階段
Win中的Python配置
Mac中的Python配置
二、Python語法入門
Python跟英語一樣是一門語言
數據類型之字符串
數據類型之列表元組集合
數據類型之字典
數據類型之布爾值、None
邏輯語句(if&for&tryexcept)
列表推導式
理解函數
常用的內置函數
內置庫文件路徑pathlib庫
內置庫csv文件庫
內置庫正則表達式re庫
初學python常出錯誤匯總
三、數據采集
網絡爬蟲原理
網絡訪問requests庫
網頁解析pyquery庫
實戰:大眾點評
實戰:豆瓣讀書
實戰:Boss直聘
如何解析json數據
實戰: 豆瓣電影
實戰: 京東商城
如何用爬蟲下載文檔及多媒體文件
上市公司定期報告pdf批量下載
爬蟲知識點總結
補充-用pandas采集表格數據
四、數據分析
Pandas基礎知識
數據去重與缺失值處理
合并數據
重塑數據
選取表中指定記錄(行)
選取表中指定字段(列)
描述性統計
在表中創建新字段(列)
批操作apply與agg
透視表pivot_table
數據分組groupby
時間序列時間點創建
日期數據的dt屬性
日期行索引操作(選取指定日期的數據)
時間序列date_range
時間序列重采樣resample
時間序列時間窗口rolling
實戰:Kaggle titanic數據集探索性分析
實戰:Boss直聘Python崗位分析
五、初識文本分析
文本分析在經管領域中的應用概述(1)
讀取不同格式文件中的數據
實戰:實戰之如何將多個整理到一個excel中
中文分詞及數據清洗
實戰:詞頻統計
實戰:中文情感分析(詞典法)
實戰:對excel中的文本進行情感分析
實戰:共現法擴展情感詞典(領域詞典)
六、機器學習與文本分析
了解機器學習
使用機器學習做文本分析的流程
scikit-learn機器學習庫簡介
文本特征抽取(特征工程)
實戰:在線評論文本分類
文本相似性計算
實戰:使用文本相似性識別變化(政策連續性)
實戰:Kmeans聚類算法
實戰:LDA話題模型
簡化版的LDA
文本分析在經管領域中的應用概述(2)
購買鏈接
掃碼購買
支付成功后,可下載騰訊課堂app或網頁端打開騰訊課堂官網,使用微信掃碼登錄后即可學習返回搜狐,查看更多
責任編輯:
總結
以上是生活随笔為你收集整理的python爬虫与数据分析实战27_Python网络爬虫与文本数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: unity hub添加找不到文件夹_教师
- 下一篇: python 定义函数方法_Python