當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习算法加强——数据清洗

發布時間：2025/3/21 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习算法加强——数据清洗小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

3.數據清洗

Pandas—Fuzzywuzzy

Fuzzuwuzzy—Levenshtein distance（模糊查詢與替換）

考慮降維后的樣本方差

PCA——尋找樣本的主方向u：將m和樣本值投射到某直線L上，得到m個位于L上的點，計算m個投影的方差。認為方差最大的直線方向是主方向

數據——>數據清洗——>特征選擇——>特征分析——>模型計算（管道）

import operator import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from time import time import mathdef is_prime(x):return 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)]def is_prime3(x):flag = Truefor p in p_list2:if p > math.sqrt(x):breakif x % p == 0:flag = Falsebreakif flag:p_list2.append(x)return flagif __name__ == "__main__":a = 2b = 100000# 方法1：直接計算t = time()p = [p for p in range(a, b) if 0 not in [p % d for d in range(2, int(math.sqrt(p)) + 1)]]print(time() - t)print(p)# 方法2：利用filtert = time()p = filter(is_prime, range(a, b))print(time() - t)print(p)# 方法3：利用filter和lambdat = time()is_prime2 = (lambda x: 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)])p = filter(is_prime2, range(a, b))print(time() - t)print(p)# 方法4：定義t = time()p_list = []for i in range(2, b):flag = Truefor p in p_list:if p > math.sqrt(i):breakif i % p == 0:flag = Falsebreakif flag:p_list.append(i)print(time() - t)print(p_list)# 方法5：定義和filterp_list2 = []t = time()filter(is_prime3, range(2, b))print(time() - t)print(p_list2)

總結

以上是生活随笔為你收集整理的机器学习算法加强——数据清洗的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习算法基础——k-means原理
下一篇：机器学习算法加强——回归