Pandas - 空值选择

原创于 2017-08-01 16:14:46 发布 · 7.1k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#pandas

Pandas 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了使用Pandas库处理DataFrame中缺失值(NaN)的两种方法，并对比了它们的效果。第一种方法利用df.T.isnull().any()进行筛选；第二种方法通过df.isnull().values实现。文中还特别注意到了不同方法在实际应用中的细节差异。

Pandas 选择NAN的两种办法

初始化数据

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(10,6))

df.iloc[1:3,1] = np.nan
df.iloc[5,3] = np.nan
df.iloc[7:9,5] = np.nan
df

方法一：

# df.T.isnull().any()

#选择任意一行出现空值的数据
df[df.T.isnull().any()]

#选择任意一行都没出现空的数据
df[~df.T.isnull().any()]

方法二：

#选择任意一行出现空值的数据
df[df.isnull().values]

同样的逻辑当用df[~df.isnull().values]时，结果出乎意料，出现了很多重复行。所以用df[df.isnull().values].drop_duplicates() 去重，还是无法选择任意一行都没出现空的数据。所以还是乖乖用第一种吧。。