使用c#从pdf或word文件中读取和提取信息

Reading and extracting information from pdf or word file using c#

我想构建一个从 pdf 或 word 文件中读取和提取信息的应用程序。 例如,我有一个 pdf 格式或 word 格式的文件,我想提取联系方式、地址、电子邮件等信息。如何使用 c# 完成?

对于 Word,请查看 Open XML SDK and the Power Tools for Open XML。它们使您可以非常顺利地处理任何打开的 XML 文件。 对于 PDF,只需查看 iTextSharp,这是一个很棒的 .Net PDF 库。