文章目录
前言
通过Python的PyPDF2库提取pdf中的文字
一、PyPDF2库是什么?
二、安装PyPDF2库
pip install PyPDF2
三、查看PyPDF2库版本
pip show PyPDF2
四、使用方法
待提取的pdf截图

1.引入库
import PyPDF2
2.定义pdf路径
local = '/Users/kkstar/Downloads/'
3.打开PDF文件
pdf_file = open(local+'demo_pic.pdf', 'rb')
4.创建PDF阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)
5.获取PDF文件中的页数
num_pages = len(pdf_reader.pages)
6.遍历每一页进行处理
# 遍历每一页
for page_num in range(num_pages):
# 获取当前页对象
page_obj = pdf_reader.pages[page_num]
# 获取当前页中的所有对象
page_objs = page_obj['/Resources']['/XObject'].get_object()
# 遍历每个对象
for obj_name in page_objs:
# 判断对象是否为图片
if page_objs[obj_name]['/Subtype'] == '/Image':
# 获取图片对象
img_obj = page_objs[obj_name]
# 获取图片数据
img_data = img_obj.get_data()
# 将图片数据保存为文件
with open(local+obj_name + '.jpg', 'wb') as img_file:
img_file.write(img_data)
7.提取出来的图片
