Apache Tika 从 FTP 文件流中解析

Apache Tika parsing from FTP file stream

我正在使用 Apache Tika 解析器使用以下代码读取本地文件系统中文件的内容

          ContentHandler textHandler = new BodyContentHandler();
          Metadata metadata = new Metadata();
          ParseContext context = new ParseContext();
          InputStream input = new FileInputStream(file);

          try {
            _autoParser.parse(input, textHandler, metadata, context);
          } catch (Exception e) {

            log(String.format("File %s failed", file.getCanonicalPath()));
            e.printStackTrace();
            continue;
          }

          list.add(textHandler.toString);

现在我想从 FTP 位置获取文件,有什么方法可以在运行时对 FTP 中的文件进行解析,而无需将它们下载到任何位置。

尝试 Apache Commons Net 库获取 FTP 文件的 InputStream。

示例:

    String server = "www.myserver.com";
    int port = 21;
    String user = "user";
    String pass = "pass";

    FTPClient ftpClient = new FTPClient();

    ftpClient.connect(server, port);
    ftpClient.login(user, pass);
    InputStream inputStream = ftpClient.retrieveFileStream("/test/test1.txt");