python 操作pdf文件-解析内容 (一)-CFANZ编程社区

python 操作pdf文件-解析内容 (一)

python 操作pdf 的基本使用

一、PyPDF2 插件库

官方文档示例地址：Welcome to PyPDF2 — PyPDF2 documentation

二、使用步骤

1.引入库

本地安装命令

pip install PyPDF2

2.pdf文件读取数据

## 解析 pdf 文件 安装 pip install PyPDF2
from PyPDF2 import PdfReader
from PyPDF2 import PdfWriter


## PyPDF2 无法实现创建pdf  只能读取和修改复制

## 路径增加 r 代表处理中文路径问题
reader = PdfReader(r"julong_test\mybatis – MyBatis 3 _ 简介.pdf")
number_of_pages = len(reader.pages)

## 获取pdf 元数据
meta = reader.metadata
# All of the following could be None!
print("========元数据========")
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
print("========元数据========")
## 判断是否加密
print("判断是否加密:",reader.isEncrypted)
if reader.isEncrypted == True:
    ## 解密 输入加入的字符串
    reader.decrypt("")
    page = reader.pages[0]
    text = page.extract_text()
    ## 打印解析的结果
    print(text)
else:
    ## 获取当前页码总数
    number_of_pages = len(reader.pages)
    print("页码：",number_of_pages)
    page = reader.pages[0]
    text = page.extract_text()
    ## 打印解析的结果
    print(text)

总结

这是自己学的的例子，欢迎交流每天进步一点点

0 条评论