Openai 语义搜索不适用于文件参数

Openai semantic search not working with the file parameter

据我了解,您可以使用 documents 参数或 file 参数来告诉 openai 您要执行搜索的标签。我使用 documents 参数得到了预期的结果。我使用 file 参数得到的结果并不令人满意。我希望它们是一样的。

使用 documents 参数执行搜索时..

response = dict(openai.Engine('davinci').search(
    query='sitcom',
    #file=file_id,
    max_rerank=5,
    documents=["white house", "school", "seinfeld"],
    return_metadata=False))

..我得到了预期的结果..“情景喜剧”以 771 分赢得搜索。

{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e8ef48> JSON: {
  "document": 0,
  "object": "search_result",
  "score": 147.98
}, <OpenAIObject search_result at 0xb5ebd148> JSON: {
  "document": 1,
  "object": "search_result",
  "score": 211.021
}, <OpenAIObject search_result at 0xb5ebd030> JSON: {
  "document": 2,
  "object": "search_result",
  "score": 771.348
}], 'model': 'davinci:2020-05-03'}

现在尝试使用 file 参数,我创建了一个包含内容的 temp.jsonl 文件..

{"text": "white house", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "seinfeld", "metadata": "metadata here"}

然后我将文件上传到 openai 服务器..

res = openai.File.create(file=open('temp.jsonl'), purpose="search")

在哪里..

file_id = res['id']

我等到文件被服务器处理然后..

response = dict(openai.Engine('davinci').search(
    query='sitcom',
    file=file_id,
    max_rerank=5,
    #documents=["white house", "school", "seinfeld"],
    return_metadata=False))

但是我在执行搜索时收到以下消息..

No similar documents were found in file with ID 'file-LzHkASUxbDjTAWBhHxHpIOf4'.Please upload more documents or adjust your query.

只有当我的查询与标签完全匹配时我才会得到结果..

response = dict(openai.Engine('davinci').search(
    query='seinfeld',
    file=file_id,
    max_rerank=5,
    #documents=["white house", "school", "seinfeld"],
    return_metadata=False))

{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e74f48> JSON: {
  "document": 0,
  "object": "search_result",
  "score": 668.846,
  "text": "seinfeld"
}], 'model': 'davinci:2020-05-03'}

我做错了什么?使用 documents 参数或 file 参数的结果不应该相同吗?

重新阅读文档,似乎在使用 file 参数而不是 documents 参数时,服务器首先使用提供的 query 执行基本的“关键字”搜索以缩小范围在最终使用相同的 query.

通过语义搜索重新排列这些结果之前的结果

这真令人失望。

只是为了提供一个工作示例..

{"text": "stairway to the basement", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "stairway to heaven", "metadata": "metadata here"}

现在使用查询“led zeppelin's most famous song stairway”,服务器会将结果缩小到文档 0 和文档 2 以查找“stairway”标记的匹配项。然后它将执行语义搜索并对它们进行评分。文档 2(“通往天堂的阶梯”)的相关性得分最高。

使用查询“stairway to the underground floor”将为文档 0(“stairway to the basement”)提供最高的相关性分数。

这令人失望,因为查询必须对关键字搜索和语义搜索都有用。

在我原来的 post 中,关键字搜索没有提供任何结果,因为该查询仅用于语义搜索。当使用 documents 参数时,只执行语义搜索,这就是它在那种情况下起作用的原因。