Python培訓之數(shù)據(jù)預處理：通過duplicated()方法處理重復值

更新時間:2022年07月11日13時57分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓

　　duplicated()方法的語法格式如下：

　　上述方法中參數(shù)的含義如下：

　　(1)subset：用于識別重復的列標簽或列標簽序列，默認識別所有的列標簽。

　　(2)keep：刪除重復項并保留第一次出現(xiàn)的項，取值可以為first、last或False，它們代表的含義如下：

　　(1)first：從前向后查找，除了第一次出現(xiàn)外，其余相同的被標記為重復。默認為此選項。

　　(2)last：從后向前查找，除了最后一次出現(xiàn)外，其余相同的被標記為重復。

　　(3)False：所有的相同的都被標記為重復。

　　duplicated()方法用于標記Pandas對象的數(shù)據(jù)是否重復，重復則標記為True，不重復則標記為False，所以該方法返回一個由布爾值組成的Series對象，它的行索引保持不變，數(shù)據(jù)則變?yōu)闃擞浀牟紶栔怠?/p>

　　注意：對于duplicated()方法，這里有如下兩點要進行強調：

　　第一，只有數(shù)據(jù)表中兩個條目間所有列的內容都相等時，duplicated()方法才會判斷為重復值。除此之外，duplicated()方法也可以單獨對某一列進行重復值判斷。

　　第二，duplicated()方法支持從前向后(first)和從后向前(last)兩種重復值查找模式，默認是從前向后查找判斷重復值的。換句話說，就是將后出現(xiàn)的相同條目判斷為重復值。

最新資訊