来自不同文件类型的文本提取库,PDF、DOC、DOCX、TXT c#
Text Extraction library from different file types, PDF ,DOC, DOCX, TXT c#
我正在构建以多种文件格式搜索文本的信息检索系统,
我已经尝试过 EPocalipse IFilter Lirary 但是在尝试读取 docx 文件时出现异常,我尝试了 Toxy 库它虽然 doc 阿拉伯文文件例外,最后我尝试了 TikaOnDotNet Libray 但它需要 java 才能工作,我需要使系统在服务器
上未安装 java 的主机上联机
使用这样的库怎么样:
对于DOC/DOCX:
http://www.dotnetperls.com/word
对于 PDF:
https://github.com/itext/itextsharp
对于 TXT:
https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx
能够从任何类型的文件中提取所有文本数据的库是 Apache Tika library. It can even extract the metadata (if any) from non-text files such as image and video files. Example use cases are shown here。
我正在构建以多种文件格式搜索文本的信息检索系统, 我已经尝试过 EPocalipse IFilter Lirary 但是在尝试读取 docx 文件时出现异常,我尝试了 Toxy 库它虽然 doc 阿拉伯文文件例外,最后我尝试了 TikaOnDotNet Libray 但它需要 java 才能工作,我需要使系统在服务器
上未安装 java 的主机上联机使用这样的库怎么样:
对于DOC/DOCX: http://www.dotnetperls.com/word
对于 PDF: https://github.com/itext/itextsharp
对于 TXT: https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx
能够从任何类型的文件中提取所有文本数据的库是 Apache Tika library. It can even extract the metadata (if any) from non-text files such as image and video files. Example use cases are shown here。