当前位置：首页 > 教程 > 编程语言 > python编程 > python 实现存储数据到txt和pdf文档及乱码问题的解决

python 实现存储数据到txt和pdf文档及乱码问题的解决
日期：2021-09-08 13:40:57 来源：脚本之家

第一、几种常用方法

读取TXT文档：urlopen()

读取PDF文档：pdfminer3k

第二、乱码问题

(1)、

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

输出的结果中出现乱码原因：

计算机只能处理0和1两个数字，所以想要处理文本，必须把文本变成0和1这样的数字，最早的计算机使用八个0和1表示一个字节，所以最大能够表示整数是255=11111111.如果想要表示更大的数，必须使用更多的字节。

由于计算机是美国人发明的，所以最早只有127个字符被编写进计算机，即常见的阿拉伯数字，字母大小写，以及键盘上的符号。此编码被称为ASCII编码，比如大写字母A的ASCII编码是65,65再被转换二进制01000001，即是计算机处理的东西。

显然，ASCII不能表示中文，故中国制定了自己的GB2312编码，并且兼容ASCII编码。问题是：使用GB2312编码的慕课网三个字，假设编码为61,62,63.但在ASCII码表可能是其他字符。如下图示，日文中的616263编码成其他字符，打开后意思出错。

解决方法：

国际上的unicode编码，整合全世界所有编码。故unicode编码的内容在任一台计算机用unicode仍正常打开

又对于A,ASCII编码为01000001，Unicode编码：0000000001000001此时浪费空间

故出现UTF-8编码：01000001此时用两个八位存储中文。

(2)、记事本使用unicode编码，将记事本存到计算机时，将转化为utf-8储存。

在计算机中打开文本时，将转化为unicode编码

存储原因：使用utf-8储存节省空间，使用unicode打开保证最大的兼容

(3)、服务器读取uncode编码的文档，转化为utf-8格式传给浏览器。因为网络带宽昂贵，转化为了减少负担。

(4)、python3字符串默认使用Unicode编码，所以python3支持多种语言

以Unicode表示的str通过encode()方法可以编码为指定的bytes

如果bytes使用ASCII编码，遇到ASCII码表没有的字符会以\x##表示，此时只用‘\x##'.decode('utf-8')即可

(5)、解决方法

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安装

法一：

(1)、进入网址直接下载并解压：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理员身份运行命令行窗口，进入软件解压缩位置，运行python setup.py install

法二：

(3)、直接在pycharm中安装

(4)、读取pdf过程：首先创建一个分析器pdfparser和文档对象pdfdocument，并通过两个方法相互关联，然后调用文档对象的初始化方法（可以传参数），此时资源内容被加载到文档对象中。

创建资源管理器和参数分析器，然后创建聚合器(整合资源管理器和参数分析器)，通过聚合器创建解释器（对pdf文档进行编码，解释成python能识别的格式）

(5)、读取pdf文档：通过文档对象的get_pages()方法得到pdf每一页的内容，通过解释器的process_page()方法读取一页一页。

(6)、实例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#获得文档对象,以二进制读方式打开
fp = open("naacl06-shinyama.pdf", "rb")
#创建一个与文档关联的分析器
parser = PDFParser(fp)
#创建一个pdf文档的对象
doc = PDFDocument()
#连接解释器与文档对象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文档,如果文档有密码，写与此。
doc.initialize("")
#创建pdf资源管理器
resource = PDFResourceManager()
#参数分析器
laparam = LAParams()
#创建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#创建pdf页面解释器
interpreter = PDFPageInterpreter(resource, device)
#使用文档对象得到页面的集合
for page in doc.get_pages():
  #使用页面解释器读取
  interpreter.process_page(page)
  #使用聚合器来获得内容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于读取网站上pdf内容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

补充内容：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

pdf文档 python txt 存储数据

上一篇：pandas is in和not in的使用说明

下一篇：python 实现提取PPT中所有的文字

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

python 实现存储数据到txt和pdf文档及乱码问题的解决
日期：2021-09-08 13:40:57 来源：脚本之家

第一、几种常用方法

第二、乱码问题

输出的结果中出现乱码原因：

解决方法：

第三、pdfminer3k安装

法一：

法二：

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

python 实现存储数据到txt和pdf文档及乱码问题的解决 日期：2021-09-08 13:40:57 来源：脚本之家

第一、几种常用方法

第二、乱码问题

输出的结果中出现乱码原因：

解决方法：

第三、pdfminer3k安装

法一：

法二：

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

python 实现存储数据到txt和pdf文档及乱码问题的解决
日期：2021-09-08 13:40:57 来源：脚本之家