电子邮件中的 Tika 元数据错过了日期
Tika metadata from email misses date
我有两个电子邮件测试文件:
- 使用 "save as" 在 Mac 邮件中创建的文件(这会创建一个 .txt 文件)
- 通过将电子邮件从 Mac 邮件拖到桌面创建的文件(这会创建一个 .eml 文件)
如果我用
提供文件
curl -T filename http://localhost:9998/detect/stream
我收到了两个文件的响应 "message/rfc822"。
如果我运行
curl -T filename http://localhost:9998/meta
我得到了元数据,但在 (1) 的情况下我没有提取日期,而在 (2) 的情况下我有。
我当然知道 .eml 文件包含完整的原始 header,而 .txt 文件仅包含非常简短的 header。然而,即使是缩写的 header 也包含一个 "Date" 字段,所以我认为 Tika 应该提取它。这是错误还是故意的?在后一种情况下,我能做些什么来让 Tika 提取案例 (1) 中的日期?
我是运行宁Tika-server1.14.
感谢您打开TIKA-1970;底层 James 的 mime4j 库无法解析格式为“2016 年 5 月 16 日 09:30:32 GMT+1”的日期。我们将添加额外的日期解析代码以捕获 mime4j 在 Tika 级别无法识别的那些日期格式。
再次感谢您关注我们的 JIRA 并提出问题。
我有两个电子邮件测试文件:
- 使用 "save as" 在 Mac 邮件中创建的文件(这会创建一个 .txt 文件)
- 通过将电子邮件从 Mac 邮件拖到桌面创建的文件(这会创建一个 .eml 文件)
如果我用
提供文件curl -T filename http://localhost:9998/detect/stream
我收到了两个文件的响应 "message/rfc822"。
如果我运行
curl -T filename http://localhost:9998/meta
我得到了元数据,但在 (1) 的情况下我没有提取日期,而在 (2) 的情况下我有。
我当然知道 .eml 文件包含完整的原始 header,而 .txt 文件仅包含非常简短的 header。然而,即使是缩写的 header 也包含一个 "Date" 字段,所以我认为 Tika 应该提取它。这是错误还是故意的?在后一种情况下,我能做些什么来让 Tika 提取案例 (1) 中的日期?
我是运行宁Tika-server1.14.
感谢您打开TIKA-1970;底层 James 的 mime4j 库无法解析格式为“2016 年 5 月 16 日 09:30:32 GMT+1”的日期。我们将添加额外的日期解析代码以捕获 mime4j 在 Tika 级别无法识别的那些日期格式。
再次感谢您关注我们的 JIRA 并提出问题。