C#/VB.NET中从 PDF 文档中提取所有表格

2022-12-01 12:53 开发作者： wx62c7d51fdb3c6

前言

有时，我们可能需要从 PDF 文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中，我将介绍如何使用Spire.PDF for .NET 从 PDF 文档中提取所有表格数据。

安装

首先，我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .jsNET 项目中的引用。可以从此链接下载 DLL 文件，也可以通过 NuGet 安装 DLL 文件。

PM> Install-Package Spire.PDF

从PDF文档中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法，用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。

创建一个Document类的对象，并加载源 PDF 文件。
遍历文档中的页面，并使用ExtractTable()方法从特定页面获取表格列表。
遍历特定表格中的单元格，并通过PdfTable.GetText()方法获取单元格值。
将所提取的数据写入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();

//加载PDF文档
pdf.LoadFromFile("sample.pdf");

//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();

//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//声明一个PdfTable类的表格数组
PdfTable[] tableLists;

//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable_javascript(pageIndex);

//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);

//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

vb.net

Imports Spire.Pdf
Imports Spirewww.devze.com.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As Ne开发者_开发学习w PdfDocument()

'加载PDF文档
pdf.LoadFromFile("sample.pdf")

'创建StringBuilder类的对象
Dim builder As New StringBuilder()

'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)

'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()

'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍历表格行和列
For i As Integerphp = 0 To pythonrow - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)

'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

C#/VB.NET中从 PDF 文档中提取所有表格

到此这篇关于C#/VB.NET中从 PDF 文档中提取所有表格的文章就介绍到这了,更多相关C#提取表格内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

继续阅读：C#/VB.NET 从 PDF 文档提取表格

C#/VB.NET中从 PDF 文档中提取所有表格

目录

前言

安装

从PDF文档中提取表格

更多精彩内容

精彩评论

最新开发

VC2022中“编译器的堆空间不足”的解决办法

C语言中整数与浮点数的内存存储区别解析

C++递归与迭代两种编程范式的对比与实践应用

基于C++11手撸前端Promise及应用与优势

C++11的操作符alignof使用详解

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）