在 C# 中读取 PDF 文件的一部分
Reading a part of PDF file in c#
我有很多大尺寸的 PDF 文件,我只需要阅读其中的一部分。我想开始阅读 PDF 文件并将其写入另一个文件,如 txt 文件或任何其他类型的文件。
但是,我想限制我正在写入的文件的大小。当 txt 文件的大小约为 15 MB 时,我应该停止阅读 PDF 文档,然后我保留创建的 txt 文件以供我使用。
谁能帮助我如何在 C# 中执行此操作?
提前感谢您的帮助。
这是我用来读取整个文件的代码; (图片内容对我来说不重要)
using (StreamReader sr = new StreamReader(@"F:.pdf"))
{
using (StreamWriter sw = new StreamWriter(@"F:\test.txt"))
{
while (!sr.EndOfStream)
{
string line = sr.ReadLine();
sw.WriteLine(line);
sw.Flush();
}
}
}
你必须使用 PDF 库来完成 this.There 有很多免费和付费的 PDF 库可以用来完成你的任务。最近在用EO.pdf库读取pdf页面,提取页面内容。最好的部分是它有 NuGet 包并且还在不断发展。缺点是商用需要付费
无法使用 .NET 直接读取 PDF。您应该首先将 PDF 转换为文本(或 XML,或 HTML)。
有很多 PDF 库能够将 PDF 转换为文本,例如 iTextSharp (most popular and open-source) and lot of other tools
要控制输出文本文件的大小,您应该
- 获取 PDF 的页数
- 运行逐页转换pdf到文本,同时检查输出文本文件大小
- 一旦文件大小超过 15 MB,就停止转换并移动到另一个文件
我有很多大尺寸的 PDF 文件,我只需要阅读其中的一部分。我想开始阅读 PDF 文件并将其写入另一个文件,如 txt 文件或任何其他类型的文件。 但是,我想限制我正在写入的文件的大小。当 txt 文件的大小约为 15 MB 时,我应该停止阅读 PDF 文档,然后我保留创建的 txt 文件以供我使用。 谁能帮助我如何在 C# 中执行此操作?
提前感谢您的帮助。
这是我用来读取整个文件的代码; (图片内容对我来说不重要)
using (StreamReader sr = new StreamReader(@"F:.pdf"))
{
using (StreamWriter sw = new StreamWriter(@"F:\test.txt"))
{
while (!sr.EndOfStream)
{
string line = sr.ReadLine();
sw.WriteLine(line);
sw.Flush();
}
}
}
你必须使用 PDF 库来完成 this.There 有很多免费和付费的 PDF 库可以用来完成你的任务。最近在用EO.pdf库读取pdf页面,提取页面内容。最好的部分是它有 NuGet 包并且还在不断发展。缺点是商用需要付费
无法使用 .NET 直接读取 PDF。您应该首先将 PDF 转换为文本(或 XML,或 HTML)。
有很多 PDF 库能够将 PDF 转换为文本,例如 iTextSharp (most popular and open-source) and lot of other tools
要控制输出文本文件的大小,您应该
- 获取 PDF 的页数
- 运行逐页转换pdf到文本,同时检查输出文本文件大小
- 一旦文件大小超过 15 MB,就停止转换并移动到另一个文件