0
点赞
收藏
分享

微信扫一扫

通过Python的pdfplumber库提取pdf中的文字

滚过红尘说红尘 2023-05-28 阅读 85

文章目录

前言

通过Python的PyPDF2库提取pdf中的文字

一、pdfplumber库是什么?

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

四、pdfplumber和PyPDF2区别是什么?

五、使用方法

1.引入库

import pdfplumber

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with pdfplumber.open(local+"demo.pdf") as pdf:

4.获取PDF文件中的页数

    num_pages = len(pdf.pages)

5.遍历每一页

    for page_num in range(num_pages):

6.获取当前页内容

        page = pdf.pages[page_num]

7.提取文本内容

        text = page.extract_text()

8.打印文本内容

        print(text)

9.效果

大家好,我是空空star,这是第一页。
大家好,我是空空star,这是第二页。
大家好,我是空空star,这是第三页。

Process finished with exit code 0

总结

举报

相关推荐

0 条评论