Python如何批量提取pdf文本内容

2025-04-16 09:12 开发作者： gwy

python批量提取PDF文本内容的主要步骤有：使用合适的PDF处理库、遍历PDF文件、提取文本内容、保存提取结果。首先，我们要选择一个强大且易于使用的PDF处理库，比如PyMuPDF（fitz）、PDFMiner、PyPDF2等。接下来，遍历指定目录下的PDF文件，利用所选PDF库提取每个PDF文件的文本内容，并将提取的结果保存到指定的格式文件中，如TXT或CSV文件。以下将详细介绍这些步骤，并给出具体的代码示例。

一、选择合适的PDF处理库

在Python中，有多种处理PDF文件的库可供选择。常用的有PyMuPDF（fitz）、PDFMiner、PyPDF2等。以下是这些库的简单介绍：

PyMuPDF（fitz）编程客栈：功能强大，支持文本提取、图片提取、页面操作等。
PDFMiner：专注于文本提取，支持多种文本格式和布局。
PyPDF2：较轻量级，主要用于简单的PDF操作，如合并、拆分等。

本文主要使用PyMuPDF（fitz）进行PDF文本内容的提取。PyMuPDF（fitz）不仅功能强大，而且使用起来相对简单。

二、安装所需库

在开始编写代码之前，我们需要安装所需的Pythpythonon库。可以使用以下命令安装PyMuPDF（fitz）：

pip install PyMuPDF

三、遍历PDF文件

我们首先需要遍历指定目录下的所有PDF文件。可以使用os库来实现这一点。以下是遍历指定目录下所有PDF文件的代码示例：

import os

def get_pdf_files(directory):
pdf_files = []
for root, dirs, files in os.walk(directory):
for file in files:
if file.endswith('.pdf'):
pdf_files.append(os.path.join(root, file))
return pdf_files
directory = 'path/to/pdf/directory'
pdf_files = get_pdf_files(directory)
print(pdf_files)

四、提取文本内容

接下来，我们使用PyMuPDF（fitz）库来提取每个PDF文件的文本内容。以下是提取PDF文本内容的代码示例：

import fitz  # PyMuPDF

def extract_text_from_pdf(pdf_path):
text = ""
document = fitz.open(pdf_path)
for page_num in range(len(document)):
page = document.load_page(page_num)
text += page.get_text()
return text

pdf_path = 'path/to/pdf/file.pdf'
text = extract_text_from_pdf(pdf_path)
print(text)

五、保存提取结果

最后，我们将提取的文本内容保存到指定的文件中。可以选择保存为TXT或CSV文件。以下是保存提取结果的代码示例：

def save_text_to_file(text, output_path):
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
output_path = 'path/to/output/file.txt'
save_text_to_file(text, output_path)

六、完整示例代码

结合以上步骤，我们可以编写一个完整的脚本来批量提取指定目录下所有PDF文件的文本内容，并保存到TXT文件中：

import os
import fitz # PyMuPDF
def get_pdf_files(directory):
pdf_files = []
for root, dirs, files in os.walk(directory):
for file in files:
if file.endswith('.pdf'):
pdf_files.append(os.path.join(root, file))
return pdf_files
def extract_text_from_pdf(pdf_path):
text = ""
document = fitz.open(pdf_path)
for page_num in range(len(document)):
page = document.load_page(page_num)
text += page.get_text()
return text
def save_text_to_file(text, output_path):
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
def BATch_extract_text_from_pdfs(directory, output_directory):
pdf_files = get_pdf_files(directory)
for pdf_file in pdf_files:
text = extract_text_from_pdf(pdf_file)
output_path = os.path.join(output_directory, os.path.basename(pdf_file).replace('.pdf', '.txt'))
save_text_to_file(text, output_path)
print(f"Extracted text from {pdf_file} to {output_path}")
input_directory = 'path/to/pdf/directory'
output_directory = 'path/to/output/directory'
batch_extract_text_from_pdfs(input_directory, output_directory)

七、处理特殊情况

在实际应用中，我们可能会遇到一些特殊情况，如加密的PDF文件、无法提取文本的PDF文件等。我们可以在代码中添加相应的处理逻辑。

1、处理加密的PDF文件

对于加密的PDF文件，我们可以尝试使用密码打开文件。如果没有密码，跳过该文件。以下是处理加密PDF文件的代码示例：

def extract_text_from_pdf(pdf_path, password=None):
text = ""
document = fitz.open(pdf_path)
if document.is_encrypted:
if passjavascriptword:
document.authenticate(passworandroidd)
else:
print(f"Skipping encrypted file: {pdf_pjavascriptath}")
return text
for page_num in range(len(document)):
page = document.load_page(page_num)
text += page.get_text()
return text
pdf_path = 'path/to/encrypted/pdf/file.pdf'
password = 'your_password'
text = extract_text_from_pdf(pdf_path, password)
print(text)

2、处理无法提取文本的PDF文件

有些PDF文件可能无法提取文本内容，我们可以在代码中添加异常处理逻辑，跳过无法提取文本的文件。以下是处理无法提取文本PDF文件的代码示例：

def extract_text_from_pdf(pdf_path):
text = ""
try:
document = fitz.open(pdf_path)
for page_num in range(len(document)):
page = document.load_page(page_num)
text += page.get_text()
except Exception as e:
print(f"Error extracting text from {pdf_path}: {e}")
return text
pdf_path = 'path/to/problematic/pdf/file.pdf'
text = extract_text_from_pdf(pdf_path)
print(text)

八、总结

本文详细介绍了如何使用Python批量提取PDF文本内容的步骤，包括选择合适的PDF处理库、遍历PDF文件、提取文本内容、保存提取结果以及处理特殊情况。通过这些步骤，我们可以高效地批量提取PDF文件中的文本内容，满足实际应用的需求。

在实际应用中，我们可以根据具体需求对代码进行进一步优化和扩展，如添加多线程或多进程处理提高效率、支持更多文件格式的转换等。希望本文能为您提供有用的参考，帮助您顺利实现PDF文本内容的批量提取。

Python如何批量提取pdf文本内容

目录

一、选择合适的PDF处理库

二、安装所需库

三、遍历PDF文件

四、提取文本内容

五、保存提取结果

六、完整示例代码

七、处理特殊情况

1、处理加密的PDF文件

2、处理无法提取文本的PDF文件

八、总结

相关问答FAQs

更多精彩内容

精彩评论

最新开发

Go语言中uintptr和unsafe.Pointer的区别的实现小结

Go语言中栈扩容和栈缩容的使用

Go 语言中的命令行参数操作详解

浅谈Go 语言中逃逸分析是怎么进行的

Go语言错误和异常实现

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）