音效素材网提供各类素材,打造精品素材网站!

站内导航 站长工具 投稿中心 手机访问

音效素材

使用python对excel表格处理的一些小功能
日期:2021-09-08 13:25:05   来源:脚本之家

python对excel表格处理的一些小功能 功能概览pandas库的一些应用文件读入计算表格中每一行的英文单词数简单用textblob进行自然语言情感分析判断一行中是不是有两列值都与其他行重复(可推广至多列)对表格中的两列自定义函数运算判断表格中某列中是否有空对表格某列中时间格式的修正运用matplotlib画时间序列图,重叠图

功能概览

做数模模拟赛时学到的一些对表格处理的知识,为了方便自己以后查找,遂写成一篇文章,也希望能帮助大家:)

pandas库的一些应用

文件读入

代码如下,每一句后面都有注释
包括知识点:
1.excel文件的写入和输出;
2.检验表格中是否有NaN,有即删除一行;
3.把表格某列中所有某字母替换成另一字母,所有某数字替换成另一数字;
4.检验表格某列中每一格是Y还是N,是Y就在新列中对应输出1,反之则为0;
5.对表格中多列进行运算
(首先要配置pandas库,如果需要读取和写入文件,要配置xlsxwriter库)

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_pacifier.xlsx') #excel表格文件读入,括号里面写文件地址
word=word.replace(['n','y'],['N','Y'])  #把excel表里的所有n替换成N,y替换成Y
word=word.dropna(axis=0)    #如果表格里有一行中有NaN,即删除这一行
word['m'] = word['a'].str.contains('Y').astype(int)   #如果列索引为a的这一列中有Y则对应新列中取值为1
word['n']=word['vine'].str.contains('Y').astype(int)
word['n']=word['n'].replace(1,2)      #把列索引为n的这一列中所有为1的值转换为2
s = word.apply(lambda word: word['a'] *(word['m']+word['n']) , axis=1)    #s列是由表格中其他列的计算得到
word['Si']=(s - s.min())/(s.max() - s.min()) #对s列中的值进行归一化处理
print(word['Si'])                             //打印索引为Si的列
#print(s)
#print(word['n'])
word.to_excel('C:/math/Problem_C_Data/SVVp.xlsx',engine='xlsxwriter')      //输出excel文件到电脑中
print('finished') 

计算表格中每一行的英文单词数

包含知识点:
1.dataframe和字典、列表的转换;
2.如何遍历字典;
3.计算dataframe中每一列的英文句子中的单词数

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx')  #里面只有一列数据
c=[]      #列表,用来统计每一行的英文句子的英文单词个数
word=word.set_index(word.index).T.to_dict('list') #把这一列数据按dataframe的索引转换成字典     
for key,value in word.items():    #遍历字典
  s=str(value)           #先把表格里当前行的内容转换成字符串
  a=s.split(' ')          #把英文句子按空格分割
  num_s=len(a)            #计算出单词个数
  c.append(num_s)          #添加到c中
c=pd.DataFrame(c)           #由列表转换为dataframe
c.to_excel('C:/math/Problem_C_Data/counth.xlsx',engine='xlsxwriter')  //输出成新的文件
print('finished')

简单用textblob进行自然语言情感分析

用NLP简单分析表格中每一格的英文句子的情感极性和主观性

import pandas as pd
from textblob import TextBlob
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx')
c=[]
word=word.set_index(word.index).T.to_dict('list')
for key,value in word.items(): 
  s=str(value)
  blob = TextBlob(s)     #把s转化成textblob对象
  blob = blob.sentences   #利用TextBlob句子标记化句子
  first = blob[0].sentiment   #对标记化后的句子进行情感分析(我这里只有一个句子,如果有很多句就添加second=blob[1].sentiment)
  c.append(first.polarity)    #这里只添加了情感极性,如果还需要主观性,就直接用first
c=pd.DataFrame(c)
c.to_excel('C:/math/Problem_C_Data/NLPh.xlsx',engine='xlsxwriter')
print('finished')

判断一行中是不是有两列值都与其他行重复(可推广至多列)

判断表中是不是有在同一行中a列和b列值都相同的情况。如第一行中a=1,b=2,第4行中a=1,b=2,则这两行相同;如果第8行中a=1,b=3,则它和第一行不重复

import pandas as pd
import xlsxwriter
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
x=word['a']     
y=word['b']
z=pd.concat([x,y],axis=1)#对axis=1即把两列按行对齐,即左右拼接成一张表       
z['repeat']=z.duplicated()  #判断表中有没有重复的,如果有则输出为true
ll = z['repeat'].values.tolist()   #把这一列转变成列表   
if 'True' in ll:   #遍历列表,如果里面有true,就说明有重复,就输出yes
  print('yes')
print('finished')

对表格中的两列自定义函数运算

(此处定义的是除法运算)

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
def chu(x,y):
  if y==0:   #分母为0,则不运算,结果直接为0
    result=0
  else:
    result=x/y
  return result
s = word.apply(lambda word:chu(word['helpful_votes'],word['total_votes']), axis=1)
s.to_excel('C:/math/Problem_C_Data/voteh.xlsx',engine='xlsxwriter')
print('finished')

判断表格中某列中是否有空

import numpy as np
import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
train=word['review_date']
print(train.isnull().any())   #有空即输出true

对表格某列中时间格式的修正

原格式是月/日/年,如1/11/2014,改为标准datetime格式2014-01-11(此处还要舍去后面的00:00:00),方便之后画图,也方便排序等

import pandas as pd
import datetime  #引入库

#导入数据集
data =pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx')

data = data.loc[:, ['review_date']] # 获取数据集中列名为review_date
#s= pd.to_datetime(data['review_date'], format='%m/%d/%Y')

# 标准化日期,获取时间的“年、月、日”
def change_date(s):
  s = datetime.datetime.strptime(s, "%m/%d/%Y") #这里是原格式的形式,俺是月/日/年,可根据实际情况修改 
  # 把日期标准化,如把1/11/2014变成2014-01-011 00:00:00
  s = str(s) # 上一步把date转化为了时间格式,此处把date转回str格式
  return s[:10] #只获取年月日的方法,即“位置10”之前的字符串
  #字符串的切片

data['review_date'] = data['review_date'].map(change_date) 
# 用change_date函数处理列表中date这一列,如把“1/11/2014”转化为“2014-01-11”
#data = data.sort_values(by='review_date') # 按date这一列进行排序,根据需要采用
data.to_excel('C:/math/Problem_C_Data/Exxx.xlsx',engine='xlsxwriter')
print('finished')

运用matplotlib画时间序列图,重叠图

画时间序列图
(如果要画重叠图,记得x要一样,y可以不一样,然后用plt.plot(x,y0,x,y1,x,y2)即可画出重叠图)

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib
import datetime
from statsmodels.graphics.factorplots import interaction_plot
import xlsxwriter 
data=pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx')
# # create data 
s=data['E']      #y轴
e0=s[2907:5043]
t=data['review_date'] 
t0=t[2907:5043]
y0 =e0.values.tolist()
x0 = pd.to_datetime(t0)     #x轴
# # plot
plt.plot(x0,y0)        
plt.gcf().autofmt_xdate()
plt.grid(ls = '--')      #设置背后的网格线
plt.show()  #最后一定要show()

到此这篇关于使用python对excel表格处理的一些小功能的文章就介绍到这了,更多相关python对excel表格处理内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!

    您感兴趣的教程

    在docker中安装mysql详解

    本篇文章主要介绍了在docker中安装mysql详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编...

    详解 安装 docker mysql

    win10中文输入法仅在桌面显示怎么办?

    win10中文输入法仅在桌面显示怎么办?

    win10系统使用搜狗,QQ输入法只有在显示桌面的时候才出来,在使用其他程序输入框里面却只能输入字母数字,win10中...

    win10 中文输入法

    一分钟掌握linux系统目录结构

    这篇文章主要介绍了linux系统目录结构,通过结构图和多张表格了解linux系统目录结构,感兴趣的小伙伴们可以参考一...

    结构 目录 系统 linux

    PHP程序员玩转Linux系列 Linux和Windows安装

    这篇文章主要为大家详细介绍了PHP程序员玩转Linux系列文章,Linux和Windows安装nginx教程,具有一定的参考价值,感兴趣...

    玩转 程序员 安装 系列 PHP

    win10怎么安装杜比音效Doby V4.1 win10安装杜

    第四代杜比®家庭影院®技术包含了一整套协同工作的技术,让PC 发出清晰的环绕声同时第四代杜比家庭影院技术...

    win10杜比音效

    纯CSS实现iOS风格打开关闭选择框功能

    这篇文章主要介绍了纯CSS实现iOS风格打开关闭选择框,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作...

    css ios c

    Win7如何给C盘扩容 Win7系统电脑C盘扩容的办法

    Win7如何给C盘扩容 Win7系统电脑C盘扩容的

    Win7给电脑C盘扩容的办法大家知道吗?当系统分区C盘空间不足时,就需要给它扩容了,如果不管,C盘没有足够的空间...

    Win7 C盘 扩容

    百度推广竞品词的投放策略

    SEM是基于关键词搜索的营销活动。作为推广人员,我们所做的工作,就是打理成千上万的关键词,关注它们的质量度...

    百度推广 竞品词

    Visual Studio Code(vscode) git的使用教程

    这篇文章主要介绍了详解Visual Studio Code(vscode) git的使用,小编觉得挺不错的,现在分享给大家,也给大家做个参考。...

    教程 Studio Visual Code git

    七牛云储存创始人分享七牛的创立故事与

    这篇文章主要介绍了七牛云储存创始人分享七牛的创立故事与对Go语言的应用,七牛选用Go语言这门新兴的编程语言进行...

    七牛 Go语言

    Win10预览版Mobile 10547即将发布 9月19日上午

    微软副总裁Gabriel Aul的Twitter透露了 Win10 Mobile预览版10536即将发布,他表示该版本已进入内部慢速版阶段,发布时间目...

    Win10 预览版

    HTML标签meta总结,HTML5 head meta 属性整理

    移动前端开发中添加一些webkit专属的HTML5头部标签,帮助浏览器更好解析HTML代码,更好地将移动web前端页面表现出来...

    移动端html5模拟长按事件的实现方法

    这篇文章主要介绍了移动端html5模拟长按事件的实现方法的相关资料,小编觉得挺不错的,现在分享给大家,也给大家...

    移动端 html5 长按

    HTML常用meta大全(推荐)

    这篇文章主要介绍了HTML常用meta大全(推荐),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参...

    cdr怎么把图片转换成位图? cdr图片转换为位图的教程

    cdr怎么把图片转换成位图? cdr图片转换为

    cdr怎么把图片转换成位图?cdr中插入的图片想要转换成位图,该怎么转换呢?下面我们就来看看cdr图片转换为位图的...

    cdr 图片 位图

    win10系统怎么录屏?win10系统自带录屏详细教程

    win10系统怎么录屏?win10系统自带录屏详细

    当我们是使用win10系统的时候,想要录制电脑上的画面,这时候有人会想到下个第三方软件,其实可以用电脑上的自带...

    win10 系统自带录屏 详细教程

    + 更多教程 +
    ASP编程JSP编程PHP编程.NET编程python编程