更新時(shí)間:2022年11月14日10時(shí)09分 來(lái)源:傳智教育 瀏覽次數(shù):
數(shù)據(jù)清洗是利用相關(guān)技術(shù)將“臟”數(shù)據(jù)轉(zhuǎn)換為滿足質(zhì)量要求的數(shù)據(jù)。下面通過(guò)一張圖描述數(shù)據(jù)清洗的原理,具體如圖1-3所示。
圖1-3 數(shù)據(jù)清洗的原理
從圖1-3中可以看出,同一值的不同表示、拼寫錯(cuò)誤、不同的命名習(xí)慣、不合法的值以及空值都會(huì)導(dǎo)致“臟”數(shù)據(jù)出現(xiàn),通過(guò)定義好的數(shù)據(jù)清洗策略和清洗規(guī)則(即數(shù)理統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù)等清洗策略)對(duì)“臟”數(shù)據(jù)進(jìn)行清洗,得到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。
需要注意的是,數(shù)據(jù)清洗的目的是解決“臟”數(shù)據(jù)問(wèn)題,即不是將“臟”數(shù)據(jù)洗掉,而是將“臟”數(shù)據(jù)洗干凈。干凈的數(shù)據(jù)指的是滿足質(zhì)量要求的數(shù)據(jù)。
北京校區(qū)