教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

python新手常見問題:忽略進行NA值處理造成后續(xù)清洗工作報錯頻繁

更新時間:2022年11月22日14時10分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

  在幾乎所有的數(shù)據(jù)工作中,凡是涉及矩陣的數(shù)據(jù)計算,一般都要求數(shù)據(jù)不包含NA值,如果包含NA值,則無法計算均值、最大值、方差等。因此NA值的處理應該放在所有數(shù)據(jù)清洗和預處理工作的首位。

  相似問題:與NA值相似的還有2個值:正無窮和負無窮。在某些處理邏輯下,可能會產(chǎn)生這2類值。在Python中,float('inf')表示正無窮,-float(‘-inf’)表示負無窮。凡是涉及數(shù)據(jù)計算,這2類值與NA值一樣,其所在列都無法計算,因此都需要轉換處理。

  直接拋棄異常值

  異常數(shù)據(jù)通常被認定是一種“噪聲”。產(chǎn)生數(shù)據(jù)“噪聲”的原因很多,如業(yè)務運營操作、數(shù)據(jù)采集問題、數(shù)據(jù)同步問題等。處理異常數(shù)據(jù)前,需要先辨別出到底哪些是真正的數(shù)據(jù)異常。當數(shù)據(jù)的“異常”是由于業(yè)務特定運營動作產(chǎn)生時,它其實是正常反映業(yè)務狀態(tài),而不是數(shù)據(jù)本身異常的規(guī)律。因此,在這個狀態(tài)下,必須保留看似異常的結果,否則業(yè)務的真實狀態(tài)無法反映到數(shù)據(jù)中。

  相似問題:另外還有一類必須保持原有異常值的場景是后續(xù)數(shù)據(jù)應用的場景是異常檢測,如果把異常數(shù)據(jù)剔除,會直接導致異常檢測結果失效。

0 分享到:
和我們在線交談!