当前位置：首页 > 教程 > 编程语言 > python编程 > pandas提升计算效率的一些方法汇总

pandas提升计算效率的一些方法汇总
日期：2021-09-08 14:33:15 来源：脚本之家

前言

Pandas是为一次性处理整个行或列的矢量化操作而设计的，循环遍历每个单元格、行或列并不是它的设计用途。所以，在使用Pandas时，你应该考虑高度可并行化的矩阵运算。

一、避免使用for循环

尽量使用列号或者行号进行矩阵检索，避免使用for循环。

1.1使用for循环

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗时：0:00:02.455211

1.2使用行号检索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗时：0:00:00.464756

二、使用for循环的条件下提高效率

2.0 如果必须使用for循环如何提高效率

我们可以做的最简单但非常有价值的加速是使用Pandas的内置 .iterrows() 函数。

在上一节中编写for循环时，我们使用了 range() 函数。然而，当我们在Python中对大范围的值进行循环时，生成器往往要快得多。

Pandas的 .iterrows() 函数在内部实现了一个生成器函数，该函数将在每次迭代中生成一行Dataframe。更准确地说，.iterrows() 为DataFrame中的每一行生成(index, Series)的对（元组）。这实际上与在原始Python中使用 enumerate() 之类的东西是一样的，但运行速度要快得多！

生成器（Generators）
生成器函数允许你声明一个行为类似迭代器的函数，也就是说，它可以在for循环中使用。这大大简化了代码，并且比简单的for循环更节省内存。

当你想要处理一个庞大的列表时，比如10亿个浮点数，问题就出现了。使用for循环，在内存中创建了大量的内存huge列表，并不是每个人都有无限的RAM来存储这样的东西！

生成器将创建元素时，仅在需要时将它们存储在内存中。一次一个。这意味着，如果必须创建10亿个浮点数，那么只能一次将它们存储在内存中。Python中的range()函数使用生成器来构建列表。

也就是说，如果你想多次迭代列表并且它足够小以适应内存，那么使用for循环和range函数会更好。这是因为每次访问list值时，生成器和range都会重新生成它们，而range是一个静态列表，并且内存中已存在整数以便快速访问。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗时:0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗时：0:00:03.513161

三、使用.apply

iterrows()函数极大地提高了速度，但我们还远远没有完成。请始终记住，当使用为向量操作设计的库时，可能有一种方法可以在完全没有for循环的情况下最高效地完成任务。

为我们提供此功能的Pandas功能是 .apply() 函数。apply()函数接受另一个函数作为输入，并沿着DataFrame的轴（行、列等）应用它。在传递函数的这种情况下，lambda通常可以方便地将所有内容打包在一起。

参考链接

四、其他方式

博客链接

总结

到此这篇关于pandas提升计算效率的文章就介绍到这了,更多相关pandas计算效率内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

Pandas for循环 apply函数 pandas数据统计

上一篇：Pytorch 如何训练网络时调整学习率

下一篇：python pygame入门教程

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

pandas提升计算效率的一些方法汇总
日期：2021-09-08 14:33:15 来源：脚本之家

前言

一、避免使用for循环

二、使用for循环的条件下提高效率

三、使用.apply

四、其他方式

总结

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

pandas提升计算效率的一些方法汇总 日期：2021-09-08 14:33:15 来源：脚本之家

前言

一、避免使用for循环

二、使用for循环的条件下提高效率

三、使用.apply

四、其他方式

总结

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

pandas提升计算效率的一些方法汇总
日期：2021-09-08 14:33:15 来源：脚本之家