音效素材网提供各类素材,打造精品素材网站!

站内导航 站长工具 投稿中心 手机访问

音效素材

浅谈pandas中对nan空值的判断和陷阱
日期:2021-09-08 13:50:42   来源:脚本之家

pandas基于numpy,所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象,其实际上是numpy.float64对象,所以我们不能误认为其是空对象,从而用bool(np.nan)去判断是否为空值,这是不对的。

对于pandas中的空值,我们该如何判断,并且有哪些我们容易掉进去的陷阱,即不能用怎么样的方式去判断呢?

可以判断pandas中单个空值对象的方式:

1、利用pd.isnull(),pd.isna();

2、利用np.isnan();

3、利用is表达式;

4、利用in表达式。

不可以用来判断pandas单个空值对象的方式:

1、不可直接用==表达式判断;

2、不可直接用bool表达式判断;

3、不可直接用if语句判断。

示例:

import pandas as pd
import numpy as np 
na=np.nan 
# 可以用来判断空值的方式
pd.isnull(na) # True
pd.isna(na) # True
np.isnan(na) # True
na is np.nan # True
na in [np.nan] # True 
 
# 不可以直接用来判断的方式,即以下结果和我们预期不一样
na == np.nan # False
bool(na) # True
if na:
  print('na is not null') # Output: na is not null 
 
# 不可以直接用python内置函数any和all
any([na]) # True
all([na]) #True

总结

numpy.nan是一个numpy.float64的非空对象,所以不能直接用bool表达式去判断,故一切依赖于布尔表达式的判断方式都不行,比如if语句。

对于pandas中空值的判断,我们只能通过pandas或者numpy的函数和is表达式去判断,不能用python的内置函数any或all判断。

比较奇怪的一点是pandas中空值的判断可以用is表达式判断,但是不能用==表达式判断。我们知道,对于is表达式,如果返回True,表示这两个引用指向的是同一个内存对象,即内存地址是一样的,一般同一个对象的不同引用的值也应该是相等的,所以一般is表达式为True,那么==表达式也为True。

但是对于numpy.nan对象显然不是这样的,因为其可以用is表达式判断,即当is表达式为True时,但==表达式为False,这说明虽然不同numpy.nan变量引用指向的是同一个内存地址,但是其具有自己的值属性,值是不一样的,所以不能用==来判断,这点需要注意。

补充:Pandas+Numpy 数据中空值的处理操作:判断、查找、填充及删除

本文整理了数据中空值的处理操作,主要内容如下:

为了便于描述,定义本文示例数据为如下结构:

df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
df #定义示例数据df

判断数据中是否有空值

pandas isnull()函数

df.isnull()  #返回df中各元素是否为空的同df大小的数据框 
df["A"].isnull() #判断A列中空值情况 
df[["A","B"]].isnull() # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull() 

pandas notnull()函数

df.notnull()  #判断df中各元素是否 不是 空值 
df["A"].isnull() #判断A列中非空值情况 
df[["A","B"]].isnull() # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull() 

numpy np.isnan() 函数

np.isnan(df)  # 等同于df.isnull() 
np.isnan(df["A"])  # 等同于 df["A"].isnull() 
np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()

统计空值/非空值数量

df.isnull().sum() # 统计每列的空值数量 
df.notnull().sum() # 统计每列的非空值数量 
 
df["A"].count()   # A列 非空数量
df.count()     # 统计所有列的非空值数量
df.count(axis=1)  # 每行非空值数量,axis=1 
df["A"].sum()   # A列 元素数值之和

根据空值筛选数据

# 筛选出A列为空的所有行
df[df.A.isnull()]  
df[df["A"].isnull()] 
 
# 筛选出A列非空的所有行
df[df.A.notnull()]  
df[df["A"].notnull()]    
 
# 筛选出df中存在空值的行
df[df.isnull().values==True] 

查找空值索引

np.where(np.isnan(df))  # df中空值所在的行索引及列索引 
np.where(np.isnan(df.A))  # df中A列空值所在的行索引

删除空值 dropna()函数

df.dropna()  # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作 
df.dropna(axis=1) # 删除存在空值的列 
df.dropna(how="all") # 删除所有列都为空值的特定行 
df.dropna(how = "any")  # 删除存在空值的行
 
# 对特定列空值进行删除 
df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行
 df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行
 
#将删除操作作用于原数据,修改替换原数据
 df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据

填充空值fillna()函数

# 用指定的数字来填充
df.fillna(0)  # 用0来填充df中的空值
 
# 用指定的函数统计值来填充
df.fillna(df.mean()) # 用df中数据的平均值来填充空值 
df.fillna(df.mean()["A"])  #指定用A列数据均值来填充df中空值 
df.fillna(df.sum())  # 用df中数据的和来填充空值
 
# 用字典来填充
values = {'A': 0, 'B': 1}  # A列空值用0填充,B列空值用1填充
df.fillna(value=values)  
 
# 用指定字符串来填充空值
df.fillna("unkown")
 
# 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
# 每列的空值,用其列下方非空数值填充
df.fillna(method="backfill") 
df.fillna(method="bfill")  # 同backfill
# 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
df.fillna(method="ffill") 
df.fillna(method="pad")   # 同 ffill
 
#limit参数设置填充空值的最大个数
df.fillna(0,limit=1) # 每列最多填充1个空值,超过范围的空值依然为空
 
#inplace参数空值是否修改原数据df
df.fillna(0,inplace=True) # inplace为true,将修改作用于原数据

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。

    您感兴趣的教程

    在docker中安装mysql详解

    本篇文章主要介绍了在docker中安装mysql详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编...

    详解 安装 docker mysql

    win10中文输入法仅在桌面显示怎么办?

    win10中文输入法仅在桌面显示怎么办?

    win10系统使用搜狗,QQ输入法只有在显示桌面的时候才出来,在使用其他程序输入框里面却只能输入字母数字,win10中...

    win10 中文输入法

    一分钟掌握linux系统目录结构

    这篇文章主要介绍了linux系统目录结构,通过结构图和多张表格了解linux系统目录结构,感兴趣的小伙伴们可以参考一...

    结构 目录 系统 linux

    PHP程序员玩转Linux系列 Linux和Windows安装

    这篇文章主要为大家详细介绍了PHP程序员玩转Linux系列文章,Linux和Windows安装nginx教程,具有一定的参考价值,感兴趣...

    玩转 程序员 安装 系列 PHP

    win10怎么安装杜比音效Doby V4.1 win10安装杜

    第四代杜比®家庭影院®技术包含了一整套协同工作的技术,让PC 发出清晰的环绕声同时第四代杜比家庭影院技术...

    win10杜比音效

    纯CSS实现iOS风格打开关闭选择框功能

    这篇文章主要介绍了纯CSS实现iOS风格打开关闭选择框,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作...

    css ios c

    Win7如何给C盘扩容 Win7系统电脑C盘扩容的办法

    Win7如何给C盘扩容 Win7系统电脑C盘扩容的

    Win7给电脑C盘扩容的办法大家知道吗?当系统分区C盘空间不足时,就需要给它扩容了,如果不管,C盘没有足够的空间...

    Win7 C盘 扩容

    百度推广竞品词的投放策略

    SEM是基于关键词搜索的营销活动。作为推广人员,我们所做的工作,就是打理成千上万的关键词,关注它们的质量度...

    百度推广 竞品词

    Visual Studio Code(vscode) git的使用教程

    这篇文章主要介绍了详解Visual Studio Code(vscode) git的使用,小编觉得挺不错的,现在分享给大家,也给大家做个参考。...

    教程 Studio Visual Code git

    七牛云储存创始人分享七牛的创立故事与

    这篇文章主要介绍了七牛云储存创始人分享七牛的创立故事与对Go语言的应用,七牛选用Go语言这门新兴的编程语言进行...

    七牛 Go语言

    Win10预览版Mobile 10547即将发布 9月19日上午

    微软副总裁Gabriel Aul的Twitter透露了 Win10 Mobile预览版10536即将发布,他表示该版本已进入内部慢速版阶段,发布时间目...

    Win10 预览版

    HTML标签meta总结,HTML5 head meta 属性整理

    移动前端开发中添加一些webkit专属的HTML5头部标签,帮助浏览器更好解析HTML代码,更好地将移动web前端页面表现出来...

    移动端html5模拟长按事件的实现方法

    这篇文章主要介绍了移动端html5模拟长按事件的实现方法的相关资料,小编觉得挺不错的,现在分享给大家,也给大家...

    移动端 html5 长按

    HTML常用meta大全(推荐)

    这篇文章主要介绍了HTML常用meta大全(推荐),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参...

    cdr怎么把图片转换成位图? cdr图片转换为位图的教程

    cdr怎么把图片转换成位图? cdr图片转换为

    cdr怎么把图片转换成位图?cdr中插入的图片想要转换成位图,该怎么转换呢?下面我们就来看看cdr图片转换为位图的...

    cdr 图片 位图

    win10系统怎么录屏?win10系统自带录屏详细教程

    win10系统怎么录屏?win10系统自带录屏详细

    当我们是使用win10系统的时候,想要录制电脑上的画面,这时候有人会想到下个第三方软件,其实可以用电脑上的自带...

    win10 系统自带录屏 详细教程

    + 更多教程 +
    ASP编程JSP编程PHP编程.NET编程python编程