如何使用 Apache Tika 使用 Apache Metadata class 提取“主题”字段?

How to use Apache Tika to extract the "Subject” field by using Apache Metadata class ?

我正在尝试从电子邮件中提取 "Subject" 字段,但遇到了一些问题。我已经能够得到 "To" 和 "From" 字段,就像这样:

String messageTo =  tikaMetadata.MESSAGE_TO;   //Works fine
String toField =  tikaMetadata.get(messageTo); //Works fine


System.out.println("From field is : " + fromField); //Works fine
System.out.println("To field is : "  + toField);    //Works fine


String messageSubj =  tikaMetadata.getValues("Message:Raw-Header:Subject"); 
String subjField =  tikaMetadata.get(messageTo); //Doesn't Work

我们如何使用 Tika 提取主题字段? 任何有用的提示谢谢

您可以尝试两种方式:

  1. String subjectObs = tikaMetadata.get(tikaMetadata.SUBJECT); 但是 .SUBJECT 已弃用

  2. String subject = tikaMetadata.get(TikaCoreProperties.DESCRIPTION);可能是最接近 Metadata.SUBJECT 的替代品(有关 TikaCoreProperties 的更多详细信息,请查看:tika documentation