日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

字符串处理 - DataFrame文本数据的量化 - Python代码

發布時間:2024/7/5 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 字符串处理 - DataFrame文本数据的量化 - Python代码 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在數據建模的過程中,對于文本數據,比如婚姻情況、性別、居住地等。這給只接受數值型的模型造成了很大的干擾,因此在數據采集到數據建模的過程中,我們需要一個過程,叫量化。

比如這樣一個源數據:

收入身高長相體型是否見面
一般
一般
一般
一般一般一般一般
一般
一般
一般

下面是量化的過程,利用到了字典:

#coding:utf-8import numpy as np import pandas as pd from pandas import DataFrame,Series#讀取文件 datafile = u'E:\\pythondata\\tree.xlsx'#文件所在位置,u為防止路徑中有中文名稱,此處沒有,可以省略 data = pd.read_excel(datafile)#datafile是excel文件,所以用read_excel,如果是csv文件則用read_csv print(data) #將文本中不可直接使用的文本變量替換成數字 productDict={'高':1,'一般':2,'低':3, '帥':1, '丑':3, '胖':3, '瘦':1, '是':1, '否':0} data['income'] = data['收入'].map(productDict)#將每一列中的數據按照字典規定的轉化成數字 data['hight'] = data['身高'].map(productDict) data['look'] = data['長相'].map(productDict) data['shape'] = data['體型'].map(productDict) data['is_meet'] = data['是否見面'].map(productDict) print(data.iloc[:,5:].as_matrix())#as_matrix()矩陣化

?運行結果:

[[2 1 3 3 0][1 2 1 1 1][1 2 1 1 1][2 2 2 2 1][1 1 3 2 0][2 1 1 3 1][3 3 2 1 0][1 1 1 2 1][1 1 1 1 0][3 1 2 2 1][1 3 1 3 1][1 1 1 1 0][1 1 1 2 1][2 2 1 1 1][1 1 1 2 1][1 2 2 1 0][3 1 1 2 0][2 3 3 3 0]]

這是矩陣化之后的數據,便于各種建模,不需要矩陣化的話,就將最后一個print中的.as_matrix()去掉。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的字符串处理 - DataFrame文本数据的量化 - Python代码的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。