来自不同文件类型的文本提取库，PDF、DOC、DOCX、TXT c#

Text Extraction library from different file types, PDF ,DOC, DOCX, TXT c#

c#
text
information-retrieval

我正在构建以多种文件格式搜索文本的信息检索系统，我已经尝试过 EPocalipse IFilter Lirary 但是在尝试读取 docx 文件时出现异常，我尝试了 Toxy 库它虽然 doc 阿拉伯文文件例外，最后我尝试了 TikaOnDotNet Libray 但它需要 java 才能工作，我需要使系统在服务器

上未安装 java 的主机上联机

使用这样的库怎么样:

对于DOC/DOCX： http://www.dotnetperls.com/word

对于 PDF： https://github.com/itext/itextsharp

对于 TXT： https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx

能够从任何类型的文件中提取所有文本数据的库是 Apache Tika library. It can even extract the metadata (if any) from non-text files such as image and video files. Example use cases are shown here。

来自不同文件类型的文本提取库，PDF、DOC、DOCX、TXT c#

Text Extraction library from different file types, PDF ,DOC, DOCX, TXT c#

c#

text

information-retrieval