[DataAnalysis]机器学习数据类型和数据质量
數(shù)據(jù)類型
1、屬性:
屬性是對(duì)象的性質(zhì)或者特性,它因?qū)ο蠖?#xff0c;或隨著時(shí)間變化。
我們根據(jù)屬性值的運(yùn)算定義下面四種屬性類型:
數(shù)據(jù)集的一般特性
1、維度:分析高維數(shù)據(jù)有時(shí)會(huì)陷入維災(zāi)難,數(shù)據(jù)預(yù)處理的一個(gè)重要?jiǎng)訖C(jī)就是減少維度。
2、稀疏性:有些數(shù)據(jù)集如果具有非對(duì)稱特征的數(shù)據(jù)集(一個(gè)對(duì)象的大部分屬性上的值都是0,出現(xiàn)非零屬性值才是最重要的)。實(shí)際上稀疏性是一個(gè)優(yōu)點(diǎn),因?yàn)橹挥蟹橇阒挡判枰鎯?chǔ)和處理,這將節(jié)省大量的計(jì)算時(shí)間和存儲(chǔ)空間。
3、分辨率:分辨率太高,可能無(wú)法識(shí)別模式或者掩埋在噪聲中,如果分辨率太低,可能模式無(wú)法出現(xiàn)。
數(shù)據(jù)質(zhì)量
1、測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤
2、噪聲(測(cè)量誤差的隨機(jī)部分)和偽象(確定性的失真)
3、精度、偏倚和準(zhǔn)確率
4、離群點(diǎn)
5、遺漏值
6、不一致的值
7、重復(fù)數(shù)據(jù)
8、應(yīng)用問(wèn)題:時(shí)效性和相關(guān)性
?
?
總結(jié)
以上是生活随笔為你收集整理的[DataAnalysis]机器学习数据类型和数据质量的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 状态空间方程的等价问题
- 下一篇: 5G学习-3GPP协议入门