文章目录
前言
通过Python的PyPDF2库提取pdf中的文字
一、pdfplumber库是什么?
二、安装pdfplumber库
pip install pdfplumber
三、查看pdfplumber库版本
pip show pdfplumber
四、pdfplumber和PyPDF2区别是什么?
五、使用方法
1.引入库
import pdfplumber
2.定义pdf路径
local = '/Users/kkstar/Downloads/'
3.打开PDF文件
with pdfplumber.open(local+"demo.pdf") as pdf:
4.获取PDF文件中的页数
num_pages = len(pdf.pages)
5.遍历每一页
for page_num in range(num_pages):
6.获取当前页内容
page = pdf.pages[page_num]
7.提取文本内容
text = page.extract_text()
8.打印文本内容
print(text)
9.效果
大家好,我是空空star,这是第一页。
大家好,我是空空star,这是第二页。
大家好,我是空空star,这是第三页。
Process finished with exit code 0