弹性搜索附件插件性能改进
elasticsearch attachment plugin performance improvement
我是 elasticsearch 的新手,尝试使用 elasticsearch atachment plugin 通过摄取管道解析 pdf 文件,但解析 pdf 似乎需要很多时间,具体取决于 pdf 大小 1MB=2sec,5MB=15sec, 10MB=25sec 等等,请教如何缩短这个执行时间?
PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}
PUT my-index-000001/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
谢谢
这是一项昂贵的操作,会消耗资源,我会探索使用 FSCrawler(https://fscrawler.readthedocs.io/en/fscrawler-2.9/)或其他 Tika 库来 off-load 从 ES 进行整个操作;您可能能够在数据准备好索引之前并行完成很多事情或处理数据。
我是 elasticsearch 的新手,尝试使用 elasticsearch atachment plugin 通过摄取管道解析 pdf 文件,但解析 pdf 似乎需要很多时间,具体取决于 pdf 大小 1MB=2sec,5MB=15sec, 10MB=25sec 等等,请教如何缩短这个执行时间?
PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}
PUT my-index-000001/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
谢谢
这是一项昂贵的操作,会消耗资源,我会探索使用 FSCrawler(https://fscrawler.readthedocs.io/en/fscrawler-2.9/)或其他 Tika 库来 off-load 从 ES 进行整个操作;您可能能够在数据准备好索引之前并行完成很多事情或处理数据。