当前位置：首页 > 教程 > 编程语言 > python编程 > 浅谈Pandas dataframe数据处理方法的速度比较

浅谈Pandas dataframe数据处理方法的速度比较
日期：2021-09-08 13:59:31 来源：脚本之家

数据修改主要以增删改差为主，这里比较几种写法在数据处理时间上的巨大差别。

数据量大概是500万行级别的数据，文件大小为100M。

1.iloc

iloc是一种速度极其慢的写法。这里我们对每个csv文件中的每一行循环再用iloc处理，示例代码如下：

for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用这种方法对五百万行的数据进行处理大概需要5个小时，实在是很慢。

2.at

at相比于iloc有了很大的性能提升，也是for循环处理，示例代码如下：

for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的，用at，程序的速度会有大幅提高，大概10分钟，但是还不够。

3.apply(lambda x:...)

想说apply是因为我觉得for循环速度太慢，想在循环上对程序进行优化。然后网上有人说apply可以大幅度提升速度，然而经过测试发现在我的程序里，使用apply和for差不多吧，性能也一般。

4.直接用series处理

这才是真正优化for循环的方法，以上面at的程序为例，可以改写为：

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()

将程序都改为series处理，快了很多，最后500万行的数据大概需要37秒能跑完，基本符合预期。

这里提两句关于dataframe属性筛选，也就是上面df.attr > 0这一部分。首先pandas这个属性筛选实在是很强大，很方便。

其次是我们属性筛选的时候不要去修改属性，而是修改后面的数字，比如，我们不要这样写：

float(df.attr )> 0，而是这样写：

df.attr > str(0)，因为df.attr作为属性是不能随便动的。

补充：pandas中DataFrame单个数据提取效率与修改效率

目标

使用pandas处理金融数据及建模中经常需要按时间序列顺序循DataFrame数据，读取具体位置的数据判断或修改。经验上这种操作要比直接对二维列表或者np.array格式数据慢的多，原因可能在于index及columns层次的查找（两个字典，都不是连续数组，每次查找定位都需要时间）和DataFrame中数据的内存布局，有机会以后再深入研究。

这里做一组数值实验对比几种方法的效率。

生成数据

先生成一个二维数组随机数作为DataFrame数据，不失一般性，并把列名、行名设为标记顺序的字符串。

import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后从限定范围内随机生成取值位置，为了方便对比，把随机坐标与字符串名对应起来

columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

读取测试

首先传统方法，直接取columns及index中名称定位

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐标，速度快了一些

t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法，速度和直接取columns及index中名称定位差不多

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法，比loc快一点，毕竟loc可以切片的

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假设知道具体横纵坐标后，我们再比较：

还是从取values开始，也很慢，看来每次从df中取values很耗时

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc试一下，没什么区别

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做对比，提升不大，有点失望

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法，还是先取二维数组来再定位

t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改测试

重复刚才的过程，把对应值改为0作为简单测试方式，别忘了原始数据要备份

取columns及index中名称定位

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐标

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法，在修改数值上竟然比loc快这么多

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改，也是不错的，和读取相近，看来还都是在每次提取values上耗时

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二维数组来再定位

df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

总结

效率上肯定是直接取数值最优的，这次系统性比较做个记录。代码写的有点啰嗦了，不过方便复制实验。在建模级别的代码上我还是习惯于用第2种方法，主要是鉴于代码可读性、维护和修改上。代码会在key上告诉我这里是什么，直观易读。

以前也曾为了提高代码运行效率写过先提取二维数组的，但columns多了就很费劲，重读还需要转译一遍。当然也可以把数据写成类，但是感觉和pandas不好融合，从建模和研究效率上没有太好的解决方案。之后会找时间再研究DataFrame内部机制。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

Pandas dataframe数据

上一篇：Python 把两层列表展开平铺成一层(5种实现方式)

下一篇：python3 sqlite3限制条件查询的操作

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

浅谈Pandas dataframe数据处理方法的速度比较
日期：2021-09-08 13:59:31 来源：脚本之家

1.iloc

2.at

3.apply(lambda x:...)

4.直接用series处理

目标

生成数据

读取测试

修改测试

总结

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

浅谈Pandas dataframe数据处理方法的速度比较 日期：2021-09-08 13:59:31 来源：脚本之家

1.iloc

2.at

3.apply(lambda x:...)

4.直接用series处理

目标

生成数据

读取测试

修改测试

总结

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

浅谈Pandas dataframe数据处理方法的速度比较
日期：2021-09-08 13:59:31 来源：脚本之家