日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 机器学习入门:数据集、数据类型和统计学

發布時間:2023/11/16 python 93 coder
生活随笔 收集整理的這篇文章主要介紹了 Python 机器学习入门:数据集、数据类型和统计学 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習是通過研究數據和統計信息使計算機學習的過程。機器學習是邁向人工智能(AI)的一步。機器學習是一個分析數據并學會預測結果的程序。

數據集

在計算機的思維中,數據集是任何數據的集合。它可以是從數組到完整數據庫的任何東西。

數組的示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

數據庫的示例:

Carname  Color  Age  Speed  AutoPass
BMW  red  5  99  Y
Volvo  black  7  86  Y
VW  gray  8  87  N
VW  white  7  88  Y
Ford  white  2  111  Y
VW  white  17  86  Y
Tesla  red  2  103  Y
BMW  black  9  87  Y
Volvo  gray  4  94  N
Ford  white  11  78  N
Toyota  gray  12  77  N
VW  white  9  85  N
Toyota  blue  6  86  Y

通過查看數組,我們可以猜測平均值可能在80到90之間,我們還能夠確定最高值和最低值,但我們還能做什么?

通過查看數據庫,我們可以看到最受歡迎的顏色是白色,而最老的車輛為17歲,但如果我們能夠通過查看其他值來預測車輛是否具有AutoPass呢?

這就是機器學習的用途!分析數據并預測結果!

在機器學習中,通常需要處理非常大的數據集。在本教程中,我們將盡量讓您盡可能容易地理解機器學習的不同概念,并使用易于理解的小型數據集。

數據類型

要分析數據,重要的是要知道我們正在處理的數據類型。

我們可以將數據類型分為三個主要類別:

  • 數值
  • 分類
  • 順序

數值數據是數字,并且可以分為兩個數值類別:

  1. 離散數據 - 限制為整數的數字。示例:汽車經過的數量。
  2. 連續數據 - 有無限值的數字。示例:物品的價格或大小。

分類數據是不能相互比較的值。示例:顏色值或任何是/否值。

順序數據類似于分類數據,但可以相互比較。示例:學校成績,其中A好于B等等。

通過了解數據源的數據類型,您將能夠知道在分析數據時使用哪種技術。

您將在接下來的章節中了解更多有關統計學和數據分析的內容。

機器學習 - 均值、中位數、眾數

在觀察一組數字時,我們可以學到什么?

在機器學習(以及數學)中,通常有三個值引起我們的興趣:

  • 均值 - 平均值
  • 中位數 - 中間值
  • 眾數 - 出現最頻繁的值

示例:我們已經記錄了13輛車的速度:

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

這些速度的平均值、中間值和最常見的速度值是多少呢?

均值

均值是平均值。

要計算均值,找到所有值的總和,并將總和除以值的數量:

(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77

NumPy模塊有一個用于此目的的方法。了解有關NumPy模塊的信息,請查看我們的NumPy教程。

示例:使用NumPy的mean()方法找到平均速度:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.mean(speed)

print(x)

中位數

中位數是排列所有值后位于中間的值:

77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111

在找到中位數之前,需要確保對數字進行排序。

NumPy模塊有一個用于此目的的方法:

示例:使用NumPy的median()方法找到中間值:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

如果中間有兩個數字,將這些數字的總和除以2。

77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103

(86 + 87) / 2 = 86.5

示例:使用NumPy模塊:

import numpy

speed = [99,86,87,88,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

眾數

眾數是出現最頻繁的值:

99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86

SciPy模塊有一個用于此目的的方法。了解有關SciPy模塊的信息,請查看我們的SciPy教程。

示例:使用SciPy的mode()方法找到出現最頻繁的數字:

from scipy import stats

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = stats.mode(speed)

print(x)

最后

為了方便其他設備和平臺的小伙伴觀看往期文章:公眾號搜索Let us Coding,或者掃描下方二維碼,關注公眾號,即可獲取最新文章。

看完如果覺得有幫助,歡迎點贊、收藏關注

總結

以上是生活随笔為你收集整理的Python 机器学习入门:数据集、数据类型和统计学的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。