数据采集 复习题
考前回顧記憶點:
6.常用的數據采集命令行:hadoop命令行
**
第一章作業
**
1.數據采集系統主要實現哪些基本功能?
1)采集傳感器輸出的模擬信號,經過調整,采樣,量化,編碼,傳輸等步驟后轉換成計算機能識別的數字信號然后送入計算機進行計算和處理。
2)將計算得到的數據進行存儲、顯示、或打印,以便監視物理量。
2.簡述數據采集系統的基本結構形式,并比較其特點。
多路模擬輸入通道分為集中式采集和分布式采集。
計算機數據采集系統是將多個傳感器集中在一起,通過模擬多路開關對它們進行分時采集。系統架構簡單,工作速度較低。
集散型數據采集系統由若干“數據采集站”與一臺上位機及通信接口、線路組成,即數據是分布在不同區域的。系統適應能力強。數據采集站并行工作,可以實時響應。
3.采樣周期與哪些因素有關?如何選擇采樣周期?
采樣周期與存儲空間與數據處理精度有關。
1)存儲空間足夠大,用常規采樣技術:fs>=2xfmax
2)存儲空間不足,用間歇采樣技術。
3)信號頻率隨時間變化,用變頻采樣技術。
4.為什么要在數據采集系統中使用測量放大器?如何選擇?
數據采集時來自傳感器的模擬信號一般為較弱的低電平信號。程控放大器將微弱輸入信號放大,以便充分利用A/D轉換器的滿量程分辨率。應根據
1)共模抑制比
2)溫漂
3)非線性度等 選擇放大器
5.在設計數據采集系統時,選擇模擬多路轉換器要考慮的主要因素是什么?
通道數量、泄漏電流、導通電阻、開關速度、芯片電源電壓范圍。
7.在數據采集系統中,模擬多路轉換器的作用是什么?選 擇型號和配置電路的原則是什么?
輪流切換各路模擬量與A/D轉換器之間的通道,達到分時轉換。要選擇合適的1)A/D轉換位數2)轉換速率3)環境條件4)接口
8.A/D轉換器主要技術指標
**
第二章作業
**
1. 物聯網的體系結構?
物聯網通常有3個層次:感知層、網絡層和應用層。
a) 物聯網的感知層。功能:完成信息的采集和轉換。 其組成為傳感器(或控制器)、短距離傳輸網絡。
b) 物聯網的網絡層 功能:主要完成信息傳遞和處理。 組成:兩個部分:接入單元、接入網絡。接入單元是連接感知層的網橋,它匯聚從感知層獲得的數據,并將數據發送到接入網絡。接入網絡即現有的通信網絡。
c) 物聯網的應用層功能:主要完成數據的管理和處理,并將這些數據與各行業應用的結合。 組成:包括兩部分:物聯網中間件、物聯網應用。
2. 簡述物聯網和傳感器網絡的聯系和區別。
聯系:無線傳感器網絡是物聯網的重要組成部分,主要負責監測各類環境參數.
區別:
(1) 物聯網的網絡拓撲更穩定。
(2) 物聯網中實體的網絡組織方式可以是有線,也可以是無線。
(3) 物聯網具有較強的數據處理能力,并且具有智能處理能力。
3.物聯網的關鍵技術包括哪些?
感知層的技術 1)傳感器技術2) 無線傳感器網絡技術 3)射頻識別(RFID)技術 (4)二維碼技術
網絡層的技術 1)Internet 2)通信網
應用層的技術 1)云計算 2)人工智能 3)數據挖掘 4)物聯網中間件
4.對比傳統數據采集系統,物聯網數據采集系統有哪些優缺點?
優點:
1)傳感器網絡覆蓋感知對象區域。
2)多傳感器協作完成大范圍感知任務。
4)使用多跳路由算法向用戶匯報感測結果。
缺點:傳感器節點電源能量有限,通信能力有限,計算和存儲能力有限。
5.簡述無線傳感器節點的體系結構。 (重點)
無線傳感器節點由sink -匯聚點,sensor node -傳感器節點組成。
1)傳感器節點sensor node:采集、處理、控制和通信等。
2)Sink節點:1.連接傳感器網絡與Internet等外部網絡,實現兩種協議棧之間的通信協議轉換。2.發布管理節點的監測任務3.轉發收集到的數據。
6.如何運用傳感器節點構造一個數據采集系統?(重點)
將大量的靜止或移動的傳感器以自組織和多跳的方式布置在采集區域中,構成無線網絡。通過這些傳感器節點協作地采集、處理和傳輸網絡覆蓋地域內感知對象的監測信息,并報告給用戶。
**
第三章課后作業
**
1.Android框架的組成和作用
(1)Linux內核層:提供核心系統服務,隱蔽硬件物理細節。
(2)系統運行庫層:包含一 個C/C++庫的集合,供Android系統的各個組件使用。
(3)應用框架層:提供開放的開發平臺,簡化組件軟件的重用。
(4)應用層:用Java語言編寫的運行 在虛擬機上的程序。
2.Android開發四大組件的概念和作用
(1)Activity:一個Activity通常就是一個單獨的屏幕,它上面可以顯示一些控件也可以監聽并處理用戶的事件做出響應。
(2)BroadcastReceive:應用可以使用它對外部事件進行過濾,只接收感興趣的外部事件。
(3)Service: 是一段長生命周期的,沒有用戶界面的程序,可以用來開發如監控類程序。
(4)Content Provider使一個應用程序的指定數據集提供給其他應用程序。
3.Android編程基本概念
4.常用Android傳感器種類和功能。
1.動作傳感器
用于監視設備動作的傳感器:加速傳感器和重力傳感器等。
2.位置傳感器
Android平臺提供了兩個傳感器用于確定設備的位置,這兩個傳感器是磁場傳感器和方向傳感器。
3.環境傳感器
用于檢測不同的外部環境。溫度、濕度、光線傳感器。
**
第四章課后作業
**
Hadoop框架
MapReduce執行流程
MapReduce 首先將存儲在DFS中的大規模數據集切分成獨立的split分片,這些分片被多個Map任務并行處理,結果繼續作為Reduce任務的輸入,最終有Reduce任務輸出最終結果并寫入DFS。
1.簡述Hadoop的定義和特點
定義:Hadoop是為用戶提供系統底層細節透明的開源分布式大數據計算平臺。
特點:高可靠性,高效性,高可擴展性,高容錯性,成本低,運行在Linux平臺上,支持多種編程語言。
2.簡述Hadoop的典型應用
(1)日志分析。
(2)推薦系統。
(3)數據倉庫。
(4)數據挖掘
(5)數據實時查詢
3.簡述HDFS的全稱和定義
分布式文件系統DFS:允許文件通過網絡在多臺主機上分享的 文件系統,讓多個機器上的多個用戶分享文件和存儲空間。
HDFS: Hadoop Distributed File System(Hadoop分布式文件系統)
定義:HDFS是指被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(Distributed File System)。
4.簡述YARN的作用
YARN 是一個資源管理、任務調度的框架,解決了Hadoop1的MapReduce中存在的單點故障、JobTracker任務過重等問題。主要包含三大模塊:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)ResourceManager:資源管理;
ApplicationMaster:作業調度和監控;
NodeManager:執行原TaskTracker的任務。
5.簡述Hive的作用和特點
作用:Hive是一個SQL解析引擎,它將SQL語句轉譯成MapReduce 作業并在Hadoop上執行。
特點:
(1)支持索引,加快數據查詢。 ?
(2)支持不同的存儲類型,例如,純文本文件、HBase 中的文件。 ?
(3)將元數據保存在關系數據庫中,減少了在查詢中執行語義檢查時間。 ?
(4)可以直接使用存儲在Hadoop 文件系統中的數據。 ?
(5)內置大量用戶函數UDF 來操作時間、字符串和其他的數據挖掘工具, 支持用戶擴展UDF 函數來完成內置函數無法實現的操作。 ?
(6)類SQL 的查詢方式,將SQL 查詢轉換為MapReduce 的job 在Hadoop 集群上執行。 ?
(7)編碼跟Hadoop同樣使用UTF-8字符集
6.簡述Spark的作用和特點并和Hadoop進行比較
作用:快速地大規模查詢,分析和轉換數據
特點:運行速度快,易用性好,通用性強,被優化為在內存中運行。
比較:Spark的MapReduce的Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習 等需要迭代的map reduce的算法。
**
第五章作業
**
1.采用哪些方式可以獲取大數據?
通過Chukwa,Flume,Scrible,Kafka等大數據采集工具從企業產生的大量數據中進行采集。
2.大數據采集工具有哪些?
Chukwa: Chukwa是一個用于監控大型分布式系統的開源數據收集系統。Apache Chukwa構建于Hadoop分布式文件系統(HDFS)和Map / Reduce框架之上,并繼承了Hadoop的可擴展性和健壯性。
Scribe:Scribe是Facebook開源的日志收集系統,能夠從各種日志源上收集日志,存儲到一個中央存儲系統(可以是NFS, 分布式文件系統等)上,以便于進行集中統計分析處理。
Flume:Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統。
Kafka:由Apache軟件基金會開發的一個開源流處理平臺,由 Scala和Java編寫。Kafka是一種高吞吐量的分布式發布訂閱 消息系統,它可以處理消費者規模的網站中的所有動作流數據。 Kafka被設計成能夠高效地處理大量實時數據,其特點是快速 的、可擴展的、分布式的,分區的和可復制的。
3.簡述什么是Apache Flume數據采集。(書P38重點復習)
Apache Flume 是一個可以收集例如日志,事件等數據資源,并將這些數量龐大的數據從各項數據資源中集中起來存儲的工具。flume具有高可用,分布式的配置工具,其設計的原理是基于將如日志數據的數據流從各種網站服務器上匯集起來存儲到HDFS,HBase等集中存儲器中。
4.簡述Sqoop的主要功能。
Apache Sqoop是一個開源的數據庫導入/導出工具,允許用戶將關系型數據庫中的數據導入Hadoop的HDFS文件系統,或將數據從Hadoop導入到關系型數據庫。
5.Kafka抽象具有哪種模式的特征消費組?
(書P43) 隊列消息服務和廣播服務。
如果Consumers有同一個組名,那么Kafka就相當于一個隊列消息服務,而各個Consumer均衡地消費相應Partition中的數據。
如果Consumers有不同的組名,那么Kafka就相當于一個廣播服務,它會把Topic中的所有消息廣播到每個Consumer。
Consumer Group是Kafka實現單播和廣播兩種消息模型的手段。同一個topic的數據,會廣播給不同的Consumer group;同一個Consumer group中的worker,只有一個worker能拿到這個數據。
6.Topic可以有多個分區,這些分區有什么作用?
(1)作為并行處理單元,使Kafka高效處理大數據。
(1)有利于水平擴展,避免單臺機器在磁盤空間和性能上的限制
(2)同時可以通過復制來增加數據冗余性,提高容災能力。
第六章作業
1.什么是數據遷移? (重點)
數據遷移,就是將這些舊系統中寶貴的歷史數據進行清洗、轉換,并裝載到新系統中的過程。它是一種將離線存儲與在線存儲融合的技術。它將高速、高容量的非在線存儲設備作為磁盤設備(即在線存儲設備)的下一級設備,然后將磁盤中常用的數據按指定的策略自動遷移到磁帶庫(簡稱帶庫)等二級大容量存儲設備上。
(在線存儲是指存儲設備和所存儲的數據時刻保持 “在線”狀態,可供用戶隨意讀取,滿足計算平臺對數據訪問的速度要求。就像PC機中常用的磁盤存儲模式一樣。一般在線存儲設備為磁盤和磁盤陣列等存儲設備,價格相對昂貴,但性能較好。
離線存儲是對在線存儲數據的備份,以防范可能發生的數據災難。離線存儲的數據不常被調用,一般也 遠離系統應用,所以人們用“離線”來生動地描述這種存儲方式。
)
2.基于主機的遷移方式包括哪幾種方式?
(1)直接拷貝方法:利用操作系統的一些命令可以實現磁盤數據的直接復制,適合于脫機遷移的環境。
(2)邏輯卷數據鏡像技術:對于采用邏輯卷管理器的操作系統,可使用邏輯卷管理器 完成數據遷移,適用于主機存儲的非經常性遷移。
3.基于同構存儲的數據遷移和基于異構存儲的數據遷移的區別有哪些?
(1)同構存儲的數據遷移是通過存儲的同步復制遷移技術,實現磁盤或卷LUN的復制
(2)異構存儲的數據遷移是通過存儲的虛擬化管理技術,實現對不同品牌存儲的統一管理及內部復制,從而實現數據遷移.
4.異構數據庫的數據遷移通常存在哪些問題?
(1)字段類型變化
(2)序列不一致
(3)程序不兼容 主鍵
(4)索引丟失
5.服務器虛擬化遷移有哪些優點?
服務器虛擬化可以提高設備資源的利用率,可實現服務器 的資源整合和充分運用,也符合目前云計算的需求
6.ETL構建數據倉庫包含哪些關鍵流程?(重點)
(1) 數據抽取:從不同的數據源(不同物理環境和背景 以及多樣化的數據)中通過采用不同的方法抽取數據的一個過程。
(2)數據轉換:從數據源中抽取獲得的數據格式與目標數據格式可能存在不一致的情況,所以需要對抽取后的數據進行數據轉換以及加工的處理,包括數據的合并、匯總、過濾和轉換,重新對數據進行格式化等過程。
(3)數據清洗:指數據在加載到數據倉庫之前,可能會 存在- -些問題數據,即"臟數據" ,如不完整數據、錯誤數據和重復數據等須進行數據清洗,這是一個不 斷反復的過程。
(4)數據加載:將經過數據轉換和數據清洗后的數據依照實際數據模式定義的表結構裝載到目標庫中。通常包含兩種方式裝載,一種是通過SOL語句插入、刪除和更新操作,另種是采用批量裝載方法
7.簡述Sqoop的數據導入和數據導出的過程。(重點)
導入流程:
(1)讀取要導入數據的表結構
(2)讀取參數,設置好job
(3)調用mapreduce執行任務
對數據進行切分
寫入范圍,以便讀取
讀取范圍參數(第二步中設置的參數)
創建RecordReader并從數據庫中讀取數據
創建map
執行map
導出流程:
導入過程的逆向過程
8.使用Kettle實現數據遷移。
具體操作在如下網站學習:
https://www.cnblogs.com/wlming/p/8080480.html
**
第七章作業
**
1.什么是網絡爬蟲?網絡爬蟲的常見應用有哪些?
網絡爬蟲是一種自動采集網絡數據的程序,一般分為數據采集、處理、存儲三個部分,被廣泛用于互聯網搜索引擎、資訊采集、輿情監測等領域。
2.常用的網絡爬蟲抓取策略有哪些?
(1)深度優先策略:按照深度由低到高的順序,依次訪問下一級網頁鏈接,直到不能再深入為止。爬蟲在完成一個爬行分支后返回到上一鏈接節點進一步搜索其他鏈接。當所有鏈接遍歷完后,爬行任務結束。
(2)廣度優先策略:按照廣度優先的搜索思想,逐層抓取URL池中的每一個URL的內容,并將每一 層的扇出URL納入URL池中,按照廣度優先的策略繼續遍歷。
(3)局部PageRank(鏈接的訪問量排名)策略:按照一定的網頁分析算法,預測候選URL與目標網頁的相似度或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取。
(4)OPIC策略:初始時給所有頁面-一個相同的初始現金(cash)。當下載了某個頁面之后,將P的現金分攤給所有從P中分析出的鏈接并將P的現金清空。對于待抓取AL隊列中的所有頁面都須按照現金數進行排序。
(5)大站優先策略:指對待抓取URL隊列中的所有網頁,根據所屬的網站進行分類。對于待下載頁面量大的網站,優先下載
(6)反向鏈接數策略:指一個網頁被其他網頁鏈接指向的數量。反向鏈接數表示的是一個網頁的內容受到其他人推薦的程度。
(7)最佳優先搜索策略:通過URL描述文本與目標網頁的相似度,或者與主題的相關性,根據所設定的閾值選出有效的URL進行抓取。
3.常用的網絡更新策略有哪些?
(1)歷史參考策略:最直觀,利用泊松過程來對網頁的變化進行建模,根據每個網頁過去的變動情況,利用模型預測將來何時內容會再次發生變化,以此來指導爬蟲的抓取過程。
(2)用戶體驗策略:保存網頁的多個歷史版本,并根據過去每次內容變化對搜索質量的影響,得出一個平均值,以此作為判斷爬蟲重新抓取該網頁時機的參考依據,對于影響越厲害的網頁,則越優先調度重新抓取。
(3)聚類抽樣策略:可以根據屬性將網頁歸類,同一類別內的網頁具有相同的更新頻率。為了計算某個類別的更新周期,只需對類別內網頁進行采樣,以這些采樣網頁的更新周期作為該類別內所有網頁的更新周期。
4.常用的網頁分析算法有哪些?
網頁分析算法可以歸納為基于網絡拓撲、基于網頁內容和基于用戶訪問行為三種類型。
(1) 基于用戶行為的分析算法:根據用戶對網頁的訪問頻率 、訪問時長 、點擊率等對網頁數據進行分析
(2) 基于網絡拓撲的分析算法:根據網頁的外鏈 、網頁的層次 、網頁的等級等對網頁數據進行分析,計算出網頁的權重,對網頁進行排名
(3) 基于網頁內容的分析算法:根據網頁的外觀 、網頁的文本等內容特征對網頁數據進行分析
5.簡述通用爬蟲工作過程?
(1)首先在互聯網中選出一部分網頁,以這些網頁的鏈接地址作為種子URL
(2)將這些種子URL放入待抓取的URL隊列中,爬蟲從待抓取的URL隊列依次讀取
(3)將URL通過DNS解析
(4)把鏈接地址轉換為網站服務器對應的IP地址
(5)網頁下載器通過網站服務器對網頁進行下載
(6)下載的網頁為網頁文檔形式(html)
(7)對網頁文檔中的URL進行抽取,過濾掉已經抓取的URL后將新的URL放入URL隊列中。
(8)對未進行抓取的URL繼續循環抓取,直至待抓取URL隊列為空。
其中,下載的網頁文檔一部分存儲到頁面庫中,等待建立索引等后續處理,另一方面將網頁中的URL存入已抓取URL庫中,提供給步驟7進行過濾。
6.什么是聚焦網絡爬蟲?
聚焦爬蟲的工作流程是根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。
另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
7.簡述Python的Urllib庫的主要模塊和功能。
(1)urllib.requst模塊:發送request和獲取request的結果。
(2)urllib.error模塊:捕獲由urllib.request產生的異常并返回錯誤原因
(3)urllib.parse模塊:定義了一個標準接口,把URL字符串拆分成組件,并能把組件合成URL或者將相對URL展換為給定的基URL的絕對URL
(4)urllib.robotparser模塊:一般來說,網站都會定義robots.txt文件,該文件主要用來規定網絡爬蟲爬取該網站時存在的限制。
8.簡述BeautifulSoup庫的作用。
BeautifulSoup是一個可以從HTML 或XML文件中提取數據的Python庫。
BcautifulSoup 提供一些簡單的Python式的函數用來處理導航、搜索、修改分析等功能。
它同時也是一個工具箱,通過解析文檔為用戶提供需要抓取的數據。統一將輸出文檔轉換為utf- 8編碼。
**
第八章作業
**
1.簡述HTML數據采集的主要過程
(1)通過urllib中的urlopen函數向指定url發起請求,得到返回的html。
(2)通過bs4中的BeautifulSoup函數解析html,得到bs對象,基于bs對象進行html解析獲取html中需要的數據。
2.簡述常見的爬蟲的分類方法?
一:按功能分類
(1) 批量型爬蟲,有明確抓取范圍和目標,達到目標后立即停止抓取。
(2) 增量型爬蟲,根據用戶配置持續抓取,并且定期更新抓取到的網頁和及時反映更新的變化。
(3) 垂直型爬蟲:根據用戶配置持續抓取屬于指定主題的頁面。
二:按系統結構分類
(1) 通用網絡爬蟲:又稱全網爬蟲。
(2) 聚焦網絡爬蟲:按照預定義的主題有選擇地爬取網頁,相對通用網絡爬蟲增加了目標的定義和過濾機制。
(3) 深層網絡爬蟲
(4) 分布式網絡爬蟲
3.簡述BeautifulSoup庫中的四個主要對象和功能
(1)BeautifulSoup 對象:一個html文檔的全部內容。
(2)標簽Tag 對象: BeautifulSoup 對象通過find 和find_all,或者直接調用子標簽獲取的一列對象或單個對象,
(3)NavigableString對象:標簽中的文字。
(4)comment對象:用來查找文檔注釋。
4.簡述BeautifulSoup庫中常用的解析器
5.掌握網頁爬取編程步驟和基礎正則表達式
6.掌握Scrapy框架編程
引擎(Scrapy)
用來處理整個系統的數據流處理, 觸發事務(框架核心)
調度器(Scheduler)
用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址
下載器(Downloader)
用于下載網頁內容, 并將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)
爬蟲(Spiders)
爬蟲是主要干活的, 用于從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面
項目管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后,將被發送到項目管道,并經過幾個特定的次序處理數據。
7.簡述Xpath和CSS選擇器的主要功能。
8.簡述使用CSV文件存儲數據。
9.掌握Mysql的基本命令
**
十一章:數據預處理技術
**
列舉出常用于數據散布特征的統計度量,并討論如何在大數據預處理分析中有效地計算。
散布特征:(1)極差:最大值減最小值。(2)分位數 (3)方差與標準差。
針對不同的數據類型,數據相似性和相異性常用的計算方法有哪些?
(1) 標稱屬性:設m是匹配的數目(對象i和對象j取值相同狀態的屬性數),p數對象的屬性總數。 則對象i和j的相異性d(i,j)=(p-m)/p,相似性 sim(I,j)=1-d(I,j)
(2) 二元屬性:
(3) 數值屬性:歐幾里得距離,曼哈頓距離和閔可夫斯基距離。
(4) 混合類型屬性相似性和相異性度量
(5) 文檔相似性和相異性度量:詞頻向量。
數據清洗的主要任務?常用的數據清洗技術?
主要任務:標準化數據格式,清楚異常和重復數據。
常用技術:缺失值處理,光滑噪聲數據處理,檢測偏差與糾正偏差。
數據規約的目的?常用的數據規約技術?
得到數據集的歸約表示,使得數據集變小的同時保持原數據的完整性。
常用的數據規約技術:維歸約,數量歸約和數據壓縮。
10.假設所分析的數據包括年收入income(單位:萬元),它在數據元組中的值(以遞增序)為3,3,6,6,7,7,8,9,9,10,10,12,12,12,15,15,15,18,18,18,20,20,20,20,24,24,30,30.計算數據的均值,中位數以及眾數。
均值:
11.利用習題10中的數據,回答如下問題:
(1) 將數據劃分到大小為4的等頻箱中,給出每個箱中的數據。
箱1:3,3,6,6
箱2:7,7,8,9
箱3:9,10,10,12
箱4:12,12,15,15
箱5:15,18,18,18
箱6:20,20,20,20,
箱 7:24,24,30,30.
(2) 分別給出利用箱均值光滑數據結果和用箱邊界光滑數據的結果。
箱均值光滑數據結果:用每個箱中的均值代替原值。
箱邊界光滑結果:將給定箱最大最小值視為箱邊界,將箱中值替換為最近的邊界值。
12.利用習題10中的數據,回答如下問題:
(1)使用min-max規范化變換,將年收入值為22變換到[0.0,1.0]區間。
Min=3,max=30.根據p129(6-24)
Xi’=(22-3)/(30-3)*(1.0-0.0) + 0.0=
(2)使用z-score規范化變換年收入值為22的數據,其中數據的標準差為7.46。
數據的均值為14. 根據p129 (6-25)
Xi’=(22-14) /7.46=
(3) 使用小數定標規范化變化年收入值為22的數據。
Xi取值為3-30
其最大絕對值為30
則由(6-28)得j=2.(使得max(|xi’|<1)的最小整數)
則22規范化為22/10的二次方=0.22
總結
- 上一篇: Java 内部类详解
- 下一篇: 51单片机频率计c语言程序,51单片机简