日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

文本分析简历项目收集-----机器学习(仅供参考)

發布時間:2024/3/13 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本分析简历项目收集-----机器学习(仅供参考) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本分析

項目3:基于自然語言處理的影評分析

項目簡介:通過大量的正面和負面的電影評論對計算機進行自然語言訓練,實現計算機對電影評論的基本情感分析,使其能夠快速判斷出評論是否積極

個人職責:1. 對正面和負面的電影評論進行分詞處理,整理成規定的訓練數據集格式;

? \2. 對nltk自帶的樸素貝葉斯分類器模型進行訓練;

\3. 最后模擬業務場景檢測訓練效果

項目3:2018.08 – 2018.12 智能考試分析系統

**項目描述:**由于公務員、事業單位、國企等面試內容來源較廣,面試研發人員往往需要閱讀大量的新聞熱點以及微信公眾號等網頁端內容,這使得研發人員投入大量的時間和經歷搜索、查找和篩選信息,憑借人的主觀臆斷往往命中率較低,又由于競爭對手的壓力,快、準成為贏家至關重要的因素。該系統包括數據爬取,數據清洗,關鍵詞統計,數據可視化等模塊。

**個人職責:**對公務員等面試相關的內容的數據進行清洗,分析對面試研發有用信息,提取熱點新聞的關鍵詞,預測熱點考點,為公務員等的面試研發準備素材

**所用技術:**1.利用pandas對數據進行預處理,去除無效或干擾信息;

2.利用jieba分詞,提取熱點新聞的關鍵詞,進行統計;

3.利用numpy,matplotlib,將分析結果可視化,形成結論。

項目2:2018.04 – 2018.08 智能批改英文作文系統

**項目描述:**為了提高批改英文作文的效率,減少人力批改的成本,研發了包括拼寫檢測、語法檢測、統計信息、評分、web前端等幾個模塊的英文作文自動批閱系統,輸入英文作文,極快的給出得分及評分報告。

**個人職責:**拼寫檢測模塊、語法檢測模塊、評分模塊

**所用技術:**1拼寫檢查模塊用PyEnchant對單詞進行檢查;

2.語法檢查模塊采用pylinkgrammar庫,主要通過語法鏈對語義解析;

3.評分模塊主要采用機器學習的方法對給定的樣本數據打分情況進行學習,擬合出最接近樣本數據的各項評分權重值,從而實現接近人類的評分結果。

經銷商投訴管理系統

開發工具: numpy + matplotlib + gensim + sklearn + nltk + jieba 項目描述:

本項目通過整理經銷商投訴郵件,通過LDA主題模型把每個經銷商郵件當做一個文檔分成若干個主題。在對所有文檔中主題通過無監督模型進行聚類,并通過可視化工具對每個類按照概率降序選擇前20個特征詞進行可視化,最后通過挖掘關鍵字中潛藏的信息發現經銷商投訴的重要信息,并提出解決方案,反饋給供應商。

項目職責:

數據清洗,對中文郵件進行分詞和英文郵件進行分詞,提取詞干,排除停止詞,進行詞性分析,排除動詞和助詞等;

數據預處理,對每個郵件構建詞袋,并進行歸一化,生成TF-IDF等;

模型建立,對于主題的個數采取隨機搜索的方式選取F1得分最高對應的超參數,構建LDA模型在 聚類方面,我們對聚類幾種常用的模型進行訓練,選擇輪廓系數接近于1的模型。

項目效果:

通過和同事一起在后期建立模型并進行數據分析,并提出在聚類方面考慮用并結合實際,總結出最優的解決方案反饋給供應商,供應商接受的方案,幾個月內投訴郵件有了明顯的減少。

項目名稱:客服聊天機器人

項目簡介:

智能聊天機器人通過對客服工作中的重復性問題和標準化問題進行實時處理,

來輔助人工客服以更加經濟高效的方式24小時的為客戶提供服務,人工客服

能夠集中精力為客戶提供更高價值的服務,從而提高了客戶的體驗度并節約了

運營成本

**個人職責:**分詞、建立詞袋、TF-IDF矩陣的獲取、模型的建立

所用技術:

1、利用jieba中文分詞工具包對客戶提出的問題進行分詞處理

2、利用sklearn獲取詞袋并通過詞袋建立詞頻逆文檔頻率(TF-IDF)矩陣

3、利用樸素貝葉斯分類器建立分類模型并對問題進行分類并回答

項目3 : 創美影城智能決策支持系統

軟件環境: Linux + Jieba + Nltk + Numpy + Pandas +spyder3 項目描述:

? 項目主要通過對最新電影數據的爬取,獲取對新上映影片的影評口碑,剔除水軍,反饋給用戶

真實影評,升級語音訂票功能,提升用戶操作體驗,并通過人工智能后臺,實現客服問題和幫助

問答的一體化智能影城。

項目職責:
應用requests,lxml等模塊爬取豆瓣,貓眼,時光網,IMDB等電影相關網站影評數據,存儲

MangoDB通過Pandas對影評數據進行清晰,預處理獲取數據,然后對通過Jieba分詞器分詞后對建

立詞袋,通過詞頻逆文檔頻率,通過樸素貝葉斯算法分類,應用F1對算法進行評估和優化,最終輸出每條

評論的好壞

項目名稱: 語句主題識別分類

項目描述: 根據樣本語義貢獻力的大小及語義識別度,提取特征,對未知語句進行分類,從而完成不同語句對應不同的主題
開發環境: python + sklearn
項目職責:
一 . 對數據進行預處理
1 . 獲取數據后打亂數據排序,指定 latin 1 編碼;

  • 劃分訓練集文本、對應的主題類別及主題對應的名稱;
    二 創建訓練模型以及樣本語句的特征重要性提取;
  • 使用計數矢量化器劃分訓練集詞袋矩陣;
  • 使用詞頻逆文檔轉換器創建詞頻逆文檔轉換器矩陣;
  • 創建多項分布樸素貝葉斯分類器模型并進行訓練;
    三 對測試樣本語句進行處理
  • 根據測試樣本語句創建測試集的詞袋矩陣及詞頻逆文檔頻率;
  • 最后根據模型進行預測測試集的類別;
  • 項目名稱: 垃圾郵件分類 C NN

    項目描述:采用 卷積神經網絡把郵件轉換為矩陣讀取,通過 tf.flags 的預處理,卷積池化以及合并特征,訓練模型,從而使
    模型可以對郵件進行分類
    開發環境: python +numpy+Tensorflow +ma tplotlib +os+time+re+datetime
    項目職責:
    一. 定義加載數據的參數(tf.flags.FLAGS) 1 . 通過 tf.flags.DEFINE 定義驗證集占訓練集的比例,讀取 pos 和 neg 文件;

  • 單詞的維度embe dding_dim dim(128),filter_sizes,num_filters,dropout_keep_prob,懲罰力度,bach_size,epochs,及驗證次數和保存模型; 二 加載數據 過濾特殊字符 (Load Data+Clean(
  • 以二進制格式讀取文件并轉化為 utf 8 編碼
  • 用 split 以空行來分割郵件并去掉兩邊多余空格,
  • 將 pos 和 neg 樣本合并,通過正則過濾特殊字符
  • 使用 one hot 編碼分別 記錄 pos 和 neg 樣本的 label
    三 對加載數據進行預處理
  • 計算郵件中最長單詞的長度(max_document_length); 2. 使用tensorflow.contrib的learn工具包去填充其它單詞的padding保持和max_document_length一樣; 3. 通過shuffle打亂數據順序并重新獲得訓練集,驗證集數據及label; 四. 建立模型并訓練 1. 創建session計算圖,定義輸入數據及label的placeholder及降采樣dropout; 2. 高斯初始化,定義權重參數w,及閾值b; 3. 通過conv2d提取文本特征,使用relu激活函數,然后使用max_pool提取最大特征向量,通過tf.concat()將三個池化層合并,并做flat操作; 4. 將結果進行dropout,并做全連接輸出,計算loss值及準確率; 五. 創建bach迭代并完成模型訓練 1. 先迭代epochs,然后計算每個epoch有多少個bach_sizes,循環遍歷bach_sizes,并打亂數據; 2. 執行計算圖會話,計算損失值,準確率; 3. 每迭代100次驗證一次,打印迭代次數,損失值,準確率; 4. 每迭代500次保存一下模型,最多保存5個模型;
  • 項目名稱:基于自然語言處理的影評分析

    開發環境:Win10+Spyder+Python+nltk
    項目描述:通過大量正面和負面的電影評論對計算機進行自然語言訓練,實現計算機
    對電影評論的基本情感分析,使其能夠快速做出評論是積極的(好評)還
    是消極的(差評)判定,從而節省人力。
    責任描述:分別對正面和負面的電影評論進行分詞處理,然后整理成規定的訓練數據
    集格式,對nltk 自帶的樸素貝葉斯分類器模型進行訓練,最后模擬業務場
    景檢測訓練效果。

    標準文本加工程序

    項目介紹:為標準在線服務網及全國代理提供標準文本數據支撐,為公司數據部門服務的后臺程序。
    個人職責:解決程序Bug,版本更新
    所用技術:項目使用C#語言開發,使用MySQL、SQL server、Oracle 數據庫。
    調用第三方加工包、md5 等對文本及其題錄進行版權控制。
    使用socket 以及數據庫觸發事件與標準在線服務網及數據加工程序進行通信。

    項目一:影評情感分析

    ? 開發應用:TensorFlow,LSTM 神經網絡,word2vec, numpy , matplotlib.pyplot
    ? 項目描述:每個人的觀影體驗都會有所不同,有好評也有差評,此項目通過使用遞歸神經網絡中的lstm 網絡
    對已有的大量影評文本數據進行訓練,得出情感分析的模型
    ? 項目職責:個人項目
    ? 項目思路: 1)構建單詞詞庫的嵌入矩陣
    2)形成詞和ID 的映射,在已構造的詞庫中,搜索到單詞對應的詞向量
    3)構建RNN 的網絡架構
    4)應用大量的數據訓練網絡模型
    5)通過測試數據檢測模型效果

    項目二:文章摘要提取

    ? 開發應用:TensorFlow,seq2seq 網絡模型,word2vec, numpy , matplotlib.pyplot
    ? 項目描述:類似于大段文章的標題,生活中有選擇性的去讀文章,可以節省大量的時間,此項目應用
    seq2seq 的網絡模型,來提取文章的摘要
    ? 項目職責:個人項目
    ? 項目思路: 1)數據的預處理(連詞轉換,去停用詞,構造詞向量等)
    2)構建seq2seq 的模型
    3)應用大量的數據訓練網絡模型
    4 ) 通過測試數據檢測模型效果

    項目三:文本分類-垃圾郵件處理

    ? 開發應用:TensorFlow,CNN 神經網絡
    ? 項目描述:隨著網絡的不斷發展,各種垃圾郵件隨處可見,浪費了許多的時間,能有效的將這些垃圾郵件
    進行分類區分并屏蔽,不失為一個高效做法
    ? 項目職責:個人項目
    ? 項目思路: 1)數據處理,構建文本的詞向量
    2)構建CNN 的網絡架構
    3)應用大量的數據訓練網絡模型
    4 ) 通過測試數據檢測模型效果

    文本格式智能審校軟件

    項目介紹:多數文本初稿格式不規范,審校部門工作量大、重復性高、出錯率高。由此開發此軟件,
    通過圖像識別技術,對字號大小、圖片格式、段落格式等進行審校,給出建議處理方案。
    個人職責:文本格式識別
    所用技術:將文本每頁轉換為jpg 格式圖片;
    基于Opencv.canny 算法根據灰度圖梯度變化對圖片進行邊緣檢測,獲取所有邊緣;
    根據邊緣像素大小區別文字和圖片,例如五號字體為14px,識別不符合將會提出建議;
    在操作界面輸出建議修改方案,例如段首縮進、字號大小、圖片下方是否有標識等。

    推薦系統

    項目名稱:云app商品推薦系統開發

    項目介紹:商品推薦系統的主要功能是收集過往用戶的采購信息,以這些信息為參考依據,給

    現有app用戶推薦他們可能會用到的產品。這些產品采用直銷模式,給用戶提供更

    便捷的服務。

    項目職責:在app原商城模塊上添加智能推薦系統。主要對注冊的用戶和們的過往采購商品信

    息進行匹配,根據用戶的現階段采購信息預測接下來可能會需要的產品推送給客戶。

    所用技術:1.用pandas,matplotlib 等模塊對過往用戶的采購信息進行數據預處理;

    2.根據歐氏距離及皮爾遜距離構建相似程度矩陣;

    3.根據用戶采購商品的相似度做智能推薦;

    項目名稱:看電影app客服系統

    **項目描述:**通過用戶輸入的問題自動進行語義分析為客戶尋找相似的問題和答案

    職責描述:1、負責對客戶提出的問題進行詞干的提取和語義的識別。

    ? 2、建立詞袋矩陣對特征值進行提取。

    ? 3、建立詞頻逆文檔矩陣來對模型進行語義分析,利用聚類對其進行

    ? 語音識別。

    項目名稱:看電影app智能推薦系統**

    **項目描述:**根據每個用戶對電影的評分,向用戶推薦相似用戶看過且評分較高的

    ? 電影

    **職責描述:**1、利用爬蟲技術爬取豆瓣、貓眼電影等電影網站的數據,主要獲取電影名稱,用戶評分等數據。

    2、根據歐氏距離及皮爾遜距離分數構建相似程度矩陣

    3、用相似用戶的評分做關于相似度的加權平均數作為推薦依據,智

    能推薦。

    4.對功能模塊進行測試并編寫測試文檔。

    問答平臺推薦系統

    ? 項目簡介 基于用戶 訪問的問答活躍度的推薦平臺。
    ? 個人 職責 1 按照皮氏距離得分從高到低的順序,為每個用戶生成除其自身以外的相似 問答 清單

  • 相似用戶評分 過而被推薦用戶不曾評價 過的問答 。按推薦度的降序排列。
    3
    . 用被推薦者的評分根據相似用戶的相似度做加權平均 ,生成推薦列表 。
    ? 應用技術 聚類算法、 相關性矩陣算法、皮氏距離 、 numpy 、 matplotlib 等 。
  • 項目名稱:產品智能推薦系統

    項目描述:根據不同公司對不同型號拖拉機的需求,向公司推薦相似公司用過且反響良好的機器
    職責描述:1、用pandas,matplotlib 等工具處理初始值,繪制出相關產品在不同時間,不同公司的銷售情

    2、根據歐氏距離及皮爾遜距離分數構建相似程度矩陣
    3、用相似用戶的評分做關于相似度的加權平均數作為推薦依據,智能推薦。

    項目名稱:產品智能推薦系統

    項目描述:
    根據不同用戶對產品的需求不同,向用戶推薦符合其喜好程度的產品。
    職責描述:
    ? 用pandas,matplotlib 等工具處理初始值,繪制出用戶在不同時間購買商品的情況
    ? 根據歐氏距離及皮爾遜距離分數構建相似程度矩陣
    ? 用相似用戶的評分做關于相似度的加權平均數作為推薦依據,智能推薦

    手機數據平臺

    開發方案:scrapy+redis+mongodb+python3.6.4+linux+django+sklearn+shell

    負責模塊:推薦系統,數據挖掘

    項目描述:利用互聯網數據和內部的數據進行數據挖掘和建模

    ? 1)推薦系統

    ? a. 根據客戶特征和主板方案特征,以客戶開模為推薦成功,推薦給類似客戶主板方案

    ? b. 手機ID參考推薦

    ? c. 根據主流手機公司的新產品的參數信息,使用LDA算法建立模型進行新功能推薦

    ? 2)銷量統計和應用市場等app的數據挖掘

    ? 提取每個型號的激活數據,分析提取與銷量相關的渠道特征值,對后續的銷量趨勢進行預測

    ? 提取用戶的app使用情況和下載情況,向用戶推薦可能會喜歡的應用,推送消息到前端

    ? 3)趨勢分析

    ? 根據手機互聯網信息,預測未來的討論熱點

    ? 根據禪道系統統計的訂單出貨量數據進行每周的出貨量預測

    ? 4)需求智能分類

    ? 使用LDA模型提取每個需求的主要內容,然后通過KNN的方法進行自動聚類

    **項目二:**圖書通智能管理平臺

    項目簡介:

    當下高校圖書館館藏量日益增加,規模也在不斷拓展,在日常的圖書借閱和歸還工作中,往往對圖書管理員造成很大的工作量,在學生借閱圖書時,也不能對圖書的基本信息一目了然,為了解決這一系列的問題,圖書通管理平臺應運而生。該項目旨在簡化大學圖書館圖書的管理工作,其功能包括:書籍的錄入和整理、書籍借閱管理功能、簡單的統計功能。

    **個人職責:**根據每個用戶對查詢圖書的記錄,向用戶推薦相似類型的圖書。

    工作內容:

    \1. 獲取用戶的搜索圖書的查詢記錄,并完成數據的預處理

    \2. 構建相似程度矩陣

    \3. 根據其他相似用戶的相似搜索向用戶進行智能推薦

    項目二:公司自營商城app 實現商品推薦(猜你喜歡)

    軟件環境:Linux+Pycharm
    項目簡介:
    實現公司自營app’管家幫’中首頁部分的商品內容推薦功能,主要根據不同用戶,
    他們所訂購的服務以及曾經購買過的商品,計算相似程度,從而為每一個用戶量身推薦商
    品內容。
    責任描述:
    1、調取數據庫用戶信息,根據用戶id 調取用戶購買商品信息、用戶所屬分類,以及其他
    相關用戶信息;
    2、將用戶所屬分類、購買商品按不同權重劃分為不同的分數(量化處理),通過基于用戶的
    協同過濾推薦算法(推薦引擎),歐氏距離分數或皮爾遜相關系數原理,得出用戶相
    似度矩陣;
    3、針對相似度最高的幾個用戶按照分數*相似度得出相似用戶之間的得分,取最高的幾個
    得分作為推薦內容。

    音樂智能推薦系統 3個月

    項目介紹:根據每個用戶歌單中播放每首音樂的次數,向相似用戶推薦歌曲
    個人職責:劃分數據集、建模、生成相似度用戶名單、生成推薦清單
    所用技術:1. 讀取數據,用sorted對每個用戶歌單中歌曲按照次數進行排序,取出前三十,并使用 corrcoef計算當前用戶與其他用戶的皮爾遜相關系數,并得到相似度矩陣。

  • 根據相似度矩陣排序,取出相似度最高十名用戶生成相似用戶清單
  • 找出當前用戶沒聽過,但相似用戶聽過的歌曲,排序取出前三進行推薦
  • 項目名稱:電影推薦引擎

    開發環境:Win10+Spyder+Python+json+numpy
    項目描述:根據用戶注冊時填寫的觀影名稱及評分,為每位登陸電影網站的用戶推薦
    匹配度最高的電影,使用戶能夠快速找到自己喜愛的電影。
    責任描述:根據用戶對電影的評分,計算不同用戶之間的皮爾遜相關性系數,保留其
    中的正相關系數,從而得到每位用戶的相似用戶集合,再根據不同相似用
    戶集合分別得到對應的最匹配電影推薦給用戶。

    總結

    以上是生活随笔為你收集整理的文本分析简历项目收集-----机器学习(仅供参考)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。