机器学习算法加强——数据清洗
生活随笔
收集整理的這篇文章主要介紹了
机器学习算法加强——数据清洗
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
3.數據清洗
Pandas—Fuzzywuzzy
Fuzzuwuzzy—Levenshtein distance(模糊查詢與替換)
考慮降維后的樣本方差
PCA——尋找樣本的主方向u:將m和樣本值投射到某直線L上,得到m個位于L上的點,計算m個投影的方差。認為方差最大的直線方向是主方向
數據——>數據清洗——>特征選擇——>特征分析——>模型計算(管道)
import operator import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from time import time import mathdef is_prime(x):return 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)]def is_prime3(x):flag = Truefor p in p_list2:if p > math.sqrt(x):breakif x % p == 0:flag = Falsebreakif flag:p_list2.append(x)return flagif __name__ == "__main__":a = 2b = 100000# 方法1:直接計算t = time()p = [p for p in range(a, b) if 0 not in [p % d for d in range(2, int(math.sqrt(p)) + 1)]]print(time() - t)print(p)# 方法2:利用filtert = time()p = filter(is_prime, range(a, b))print(time() - t)print(p)# 方法3:利用filter和lambdat = time()is_prime2 = (lambda x: 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)])p = filter(is_prime2, range(a, b))print(time() - t)print(p)# 方法4:定義t = time()p_list = []for i in range(2, b):flag = Truefor p in p_list:if p > math.sqrt(i):breakif i % p == 0:flag = Falsebreakif flag:p_list.append(i)print(time() - t)print(p_list)# 方法5:定義和filterp_list2 = []t = time()filter(is_prime3, range(2, b))print(time() - t)print(p_list2)總結
以上是生活随笔為你收集整理的机器学习算法加强——数据清洗的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法基础——k-means原理
- 下一篇: 机器学习算法加强——回归