Pandas 选择NAN的两种办法
初始化数据
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10,6))
df.iloc[1:3,1] = np.nan
df.iloc[5,3] = np.nan
df.iloc[7:9,5] = np.nan
df
方法一:
# df.T.isnull().any()
#选择任意一行出现空值的数据
df[df.T.isnull().any()]
#选择任意一行都没出现空的数据
df[~df.T.isnull().any()]
方法二:
#选择任意一行出现空值的数据
df[df.isnull().values]
同样的逻辑当用df[~df.isnull().values]时, 结果出乎意料,出现了很多重复行。所以用df[df.isnull().values].drop_duplicates() 去重,还是无法选择任意一行都没出现空的数据。所以还是乖乖用第一种吧。。
本文介绍了使用Pandas库处理DataFrame中缺失值(NaN)的两种方法,并对比了它们的效果。第一种方法利用df.T.isnull().any()进行筛选;第二种方法通过df.isnull().values实现。文中还特别注意到了不同方法在实际应用中的细节差异。


被折叠的 条评论
为什么被折叠?



