来自不同文件类型的文本提取库,PDF、DOC、DOCX、TXT c#

Text Extraction library from different file types, PDF ,DOC, DOCX, TXT c#

我正在构建以多种文件格式搜索文本的信息检索系统, 我已经尝试过 EPocalipse IFilter Lirary 但是在尝试读取 docx 文件时出现异常,我尝试了 Toxy 库它虽然 doc 阿拉伯文文件例外,最后我尝试了 TikaOnDotNet Libray 但它需要 java 才能工作,我需要使系统在服务器

上未安装 java 的主机上联机

使用这样的库怎么样:

对于DOC/DOCX: http://www.dotnetperls.com/word

对于 PDF: https://github.com/itext/itextsharp

对于 TXT: https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx

能够从任何类型的文件中提取所有文本数据的库是 Apache Tika library. It can even extract the metadata (if any) from non-text files such as image and video files. Example use cases are shown here