在 C# 中读取 PDF 文件的一部分

Reading a part of PDF file in c#

我有很多大尺寸的 PDF 文件,我只需要阅读其中的一部分。我想开始阅读 PDF 文件并将其写入另一个文件,如 txt 文件或任何其他类型的文件。 但是,我想限制我正在写入的文件的大小。当 txt 文件的大小约为 15 MB 时,我应该停止阅读 PDF 文档,然后我保留创建的 txt 文件以供我使用。 谁能帮助我如何在 C# 中执行此操作?

提前感谢您的帮助。

这是我用来读取整个文件的代码; (图片内容对我来说不重要)

using (StreamReader sr = new StreamReader(@"F:.pdf"))
        {
            using (StreamWriter sw = new StreamWriter(@"F:\test.txt"))
            {
                while (!sr.EndOfStream)
                {
                    string line = sr.ReadLine();                       
                    sw.WriteLine(line);
                    sw.Flush(); 
                }

            }
        }

你必须使用 PDF 库来完成 this.There 有很多免费和付费的 PDF 库可以用来完成你的任务。最近在用EO.pdf库读取pdf页面,提取页面内容。最好的部分是它有 NuGet 包并且还在不断发展。缺点是商用需要付费

无法使用 .NET 直接读取 PDF。您应该首先将 PDF 转换为文本(或 XML,或 HTML)。

有很多 PDF 库能够将 PDF 转换为文本,例如 iTextSharp (most popular and open-source) and lot of other tools

要控制输出文本文件的大小,您应该

  • 获取 PDF 的页数
  • 运行逐页转换pdf到文本,同时检查输出文本文件大小
  • 一旦文件大小超过 15 MB,就停止转换并移动到另一个文件