0
点赞
收藏
分享

微信扫一扫

微服务配置中心

伊人幽梦 03-12 07:01 阅读 2
python

Python操作PDF二




1、PyMuPDF简介


PyMuPDF(也称Fitz)开源,提供了一整套用于处理PDF文件的综合工具。使用PyMuPDF,用户可以高效地执行打开PDF、提取文本、图像和表格、操作旋转和裁剪等页面属性、创建新PDF文档以及将PDF页面转换为图像等任务

从命名形式中可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的PDF、XPS和电子书查看器

MuPDF中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度

PyMuPDF支持以下多种功能:

  • 文档阅读:支持打开和阅读多种文档(如PDF等),并访问其中的任何内容
  • 文本提取:支持从PDF文档中提取文本,包括文本内容、字体和布局信息
  • 图像提取:支持从PDF文档中提取各种格式的图像(如PNG、JPEG、JPG等)
  • 表格提取:支持从PDF文档中提取表格
  • PDF操作:PDF编辑、PDF拆分合并、加密解密和页面管理等

另外,PyMuPDF在提取文本的性能方面可以说是完爆其他库,PyMuPDF比PyPDF2、PDFPlumber、PDFMiner等快至少10倍

在这里插入图片描述

官方文档:https://pymupdf.readthedocs.io/en/latest/installation.html

其他官方文档参考:https://products.documentprocessing.com/zh/parser/python/pymupdf/

安装:

pip install PyMuPDF

2、


未完待续…




举报

相关推荐

0 条评论