当前位置：首页 > 教程 > 编程语言 > python编程 > 浅谈pandas中对nan空值的判断和陷阱

浅谈pandas中对nan空值的判断和陷阱
日期：2021-09-08 13:50:42 来源：脚本之家

pandas基于numpy，所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象，其实际上是numpy.float64对象，所以我们不能误认为其是空对象，从而用bool(np.nan)去判断是否为空值，这是不对的。

对于pandas中的空值，我们该如何判断，并且有哪些我们容易掉进去的陷阱，即不能用怎么样的方式去判断呢？

可以判断pandas中单个空值对象的方式：

1、利用pd.isnull(),pd.isna();

2、利用np.isnan();

3、利用is表达式；

4、利用in表达式。

不可以用来判断pandas单个空值对象的方式：

1、不可直接用==表达式判断；

2、不可直接用bool表达式判断；

3、不可直接用if语句判断。

示例：

import pandas as pd
import numpy as np 
na=np.nan 
# 可以用来判断空值的方式
pd.isnull(na) # True
pd.isna(na) # True
np.isnan(na) # True
na is np.nan # True
na in [np.nan] # True 
 
# 不可以直接用来判断的方式，即以下结果和我们预期不一样
na == np.nan # False
bool(na) # True
if na:
  print('na is not null') # Output: na is not null 
 
# 不可以直接用python内置函数any和all
any([na]) # True
all([na]) #True

总结

numpy.nan是一个numpy.float64的非空对象，所以不能直接用bool表达式去判断，故一切依赖于布尔表达式的判断方式都不行，比如if语句。

对于pandas中空值的判断，我们只能通过pandas或者numpy的函数和is表达式去判断，不能用python的内置函数any或all判断。

比较奇怪的一点是pandas中空值的判断可以用is表达式判断，但是不能用==表达式判断。我们知道，对于is表达式，如果返回True，表示这两个引用指向的是同一个内存对象，即内存地址是一样的，一般同一个对象的不同引用的值也应该是相等的，所以一般is表达式为True，那么==表达式也为True。

但是对于numpy.nan对象显然不是这样的，因为其可以用is表达式判断，即当is表达式为True时，但==表达式为False，这说明虽然不同numpy.nan变量引用指向的是同一个内存地址，但是其具有自己的值属性，值是不一样的，所以不能用==来判断，这点需要注意。

补充：Pandas+Numpy 数据中空值的处理操作：判断、查找、填充及删除

本文整理了数据中空值的处理操作，主要内容如下：

为了便于描述，定义本文示例数据为如下结构：

df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
df #定义示例数据df

判断数据中是否有空值

pandas isnull()函数

df.isnull()  #返回df中各元素是否为空的同df大小的数据框 
df["A"].isnull() #判断A列中空值情况 
df[["A","B"]].isnull() # 指定多列进行空值判断，对于本文实例，下述代码效果同df.isnull()

pandas notnull()函数

df.notnull()  #判断df中各元素是否 不是 空值 
df["A"].isnull() #判断A列中非空值情况 
df[["A","B"]].isnull() # 指定多列进行非空值判断，对于本文实例，下述代码效果同df.notnull()

numpy np.isnan() 函数

np.isnan(df)  # 等同于df.isnull() 
np.isnan(df["A"])  # 等同于 df["A"].isnull() 
np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()

统计空值/非空值数量

df.isnull().sum() # 统计每列的空值数量 
df.notnull().sum() # 统计每列的非空值数量 
 
df["A"].count()   # A列 非空数量
df.count()     # 统计所有列的非空值数量
df.count(axis=1)  # 每行非空值数量，axis=1 
df["A"].sum()   # A列 元素数值之和

根据空值筛选数据

# 筛选出A列为空的所有行
df[df.A.isnull()]  
df[df["A"].isnull()] 
 
# 筛选出A列非空的所有行
df[df.A.notnull()]  
df[df["A"].notnull()]    
 
# 筛选出df中存在空值的行
df[df.isnull().values==True]

查找空值索引

np.where(np.isnan(df))  # df中空值所在的行索引及列索引 
np.where(np.isnan(df.A))  # df中A列空值所在的行索引

删除空值 dropna()函数

df.dropna()  # 删除存在空值的行，默认axis=0按行，how=any每行存在一个空值就执行删除行操作 
df.dropna(axis=1) # 删除存在空值的列 
df.dropna(how="all") # 删除所有列都为空值的特定行 
df.dropna(how = "any")  # 删除存在空值的行
 
# 对特定列空值进行删除 
df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行
 df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行
 
#将删除操作作用于原数据，修改替换原数据
 df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据

填充空值fillna()函数

# 用指定的数字来填充
df.fillna(0)  # 用0来填充df中的空值
 
# 用指定的函数统计值来填充
df.fillna(df.mean()) # 用df中数据的平均值来填充空值 
df.fillna(df.mean()["A"])  #指定用A列数据均值来填充df中空值 
df.fillna(df.sum())  # 用df中数据的和来填充空值
 
# 用字典来填充
values = {'A': 0, 'B': 1}  # A列空值用0填充，B列空值用1填充
df.fillna(value=values)  
 
# 用指定字符串来填充空值
df.fillna("unkown")
 
# 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
# 每列的空值，用其列下方非空数值填充
df.fillna(method="backfill") 
df.fillna(method="bfill")  # 同backfill
# 每列的空值，用其所在列上方非空数值填充，若上方没有元素，保持空值
df.fillna(method="ffill") 
df.fillna(method="pad")   # 同 ffill
 
#limit参数设置填充空值的最大个数
df.fillna(0,limit=1) # 每列最多填充1个空值，超过范围的空值依然为空
 
#inplace参数空值是否修改原数据df
df.fillna(0,inplace=True) # inplace为true，将修改作用于原数据

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

Pandas 判断nan空值

上一篇：python+pygame实现代码雨(黑客帝国既视感)

下一篇：解决Jupyter 文件路径的问题

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

浅谈pandas中对nan空值的判断和陷阱
日期：2021-09-08 13:50:42 来源：脚本之家

可以判断pandas中单个空值对象的方式：

不可以用来判断pandas单个空值对象的方式：

总结

判断数据中是否有空值

统计空值/非空值数量

根据空值筛选数据

查找空值索引

删除空值 dropna()函数

填充空值fillna()函数

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

浅谈pandas中对nan空值的判断和陷阱 日期：2021-09-08 13:50:42 来源：脚本之家

可以判断pandas中单个空值对象的方式：

不可以用来判断pandas单个空值对象的方式：

总结

判断数据中是否有空值

统计空值/非空值数量

根据空值筛选数据

查找空值索引

删除空值 dropna()函数

填充空值fillna()函数

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

浅谈pandas中对nan空值的判断和陷阱
日期：2021-09-08 13:50:42 来源：脚本之家