日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习算法加强——数据清洗

發布時間:2025/3/21 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习算法加强——数据清洗 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

3.數據清洗

Pandas—Fuzzywuzzy

Fuzzuwuzzy—Levenshtein distance(模糊查詢與替換)

考慮降維后的樣本方差

PCA——尋找樣本的主方向u:將m和樣本值投射到某直線L上,得到m個位于L上的點,計算m個投影的方差。認為方差最大的直線方向是主方向

數據——>數據清洗——>特征選擇——>特征分析——>模型計算(管道)

import operator import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from time import time import mathdef is_prime(x):return 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)]def is_prime3(x):flag = Truefor p in p_list2:if p > math.sqrt(x):breakif x % p == 0:flag = Falsebreakif flag:p_list2.append(x)return flagif __name__ == "__main__":a = 2b = 100000# 方法1:直接計算t = time()p = [p for p in range(a, b) if 0 not in [p % d for d in range(2, int(math.sqrt(p)) + 1)]]print(time() - t)print(p)# 方法2:利用filtert = time()p = filter(is_prime, range(a, b))print(time() - t)print(p)# 方法3:利用filter和lambdat = time()is_prime2 = (lambda x: 0 not in [x % i for i in range(2, int(math.sqrt(x)) + 1)])p = filter(is_prime2, range(a, b))print(time() - t)print(p)# 方法4:定義t = time()p_list = []for i in range(2, b):flag = Truefor p in p_list:if p > math.sqrt(i):breakif i % p == 0:flag = Falsebreakif flag:p_list.append(i)print(time() - t)print(p_list)# 方法5:定義和filterp_list2 = []t = time()filter(is_prime3, range(2, b))print(time() - t)print(p_list2)

總結

以上是生活随笔為你收集整理的机器学习算法加强——数据清洗的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。