具有扩充类别的语义搜索引擎

Semantic search engine with augmented categories

我正在构建语义搜索引擎,方法是对数据库中的对象进行编码(进入 512 维向量),然后对查询进行编码,最后使用 k-NN 算法查找结果。结果不错,但是..

我想尝试使用来自维基百科的其他类别来扩充我的对象。因此,对于每个对象,我可能会得到零个或多个附加向量(取决于在维基百科中找到的单词数量)。

我的想法是对所有编码向量(每个对象)使用 numpy.average,然后使用我的常规 k-NN 搜索。

这是最佳方法吗?我觉得平均矢量可能不会得到准确的结果。

numpy.average 确实可以很好地完成这项任务。我对整体方法也很满意。我希望这些信息对某些人有用。