0
点赞
收藏
分享

微信扫一扫

python 操作pdf文件-解析内容 (一)

python 操作pdf 的基本使用

一、PyPDF2 插件库

官方文档示例地址:​​Welcome to PyPDF2 — PyPDF2 documentation​​

二、使用步骤

1.引入库

本地安装命令

pip install PyPDF2

2.pdf文件读取数据

## 解析 pdf 文件 安装 pip install PyPDF2
from PyPDF2 import PdfReader
from PyPDF2 import PdfWriter


## PyPDF2 无法实现创建pdf 只能读取和修改复制

## 路径增加 r 代表处理中文路径问题
reader = PdfReader(r"julong_test\mybatis – MyBatis 3 _ 简介.pdf")
number_of_pages = len(reader.pages)

## 获取pdf 元数据
meta = reader.metadata
# All of the following could be None!
print("========元数据========")
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
print("========元数据========")
## 判断是否加密
print("判断是否加密:",reader.isEncrypted)
if reader.isEncrypted == True:
## 解密 输入加入的字符串
reader.decrypt("")
page = reader.pages[0]
text = page.extract_text()
## 打印解析的结果
print(text)
else:
## 获取当前页码总数
number_of_pages = len(reader.pages)
print("页码:",number_of_pages)
page = reader.pages[0]
text = page.extract_text()
## 打印解析的结果
print(text)

总结

​这是自己学的的例子,欢迎交流 每天进步一点点​


举报

相关推荐

0 条评论