Openai 语义搜索不适用于文件参数
Openai semantic search not working with the file parameter
据我了解,您可以使用 documents
参数或 file
参数来告诉 openai 您要执行搜索的标签。我使用 documents
参数得到了预期的结果。我使用 file
参数得到的结果并不令人满意。我希望它们是一样的。
使用 documents
参数执行搜索时..
response = dict(openai.Engine('davinci').search(
query='sitcom',
#file=file_id,
max_rerank=5,
documents=["white house", "school", "seinfeld"],
return_metadata=False))
..我得到了预期的结果..“情景喜剧”以 771 分赢得搜索。
{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e8ef48> JSON: {
"document": 0,
"object": "search_result",
"score": 147.98
}, <OpenAIObject search_result at 0xb5ebd148> JSON: {
"document": 1,
"object": "search_result",
"score": 211.021
}, <OpenAIObject search_result at 0xb5ebd030> JSON: {
"document": 2,
"object": "search_result",
"score": 771.348
}], 'model': 'davinci:2020-05-03'}
现在尝试使用 file
参数,我创建了一个包含内容的 temp.jsonl
文件..
{"text": "white house", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "seinfeld", "metadata": "metadata here"}
然后我将文件上传到 openai 服务器..
res = openai.File.create(file=open('temp.jsonl'), purpose="search")
在哪里..
file_id = res['id']
我等到文件被服务器处理然后..
response = dict(openai.Engine('davinci').search(
query='sitcom',
file=file_id,
max_rerank=5,
#documents=["white house", "school", "seinfeld"],
return_metadata=False))
但是我在执行搜索时收到以下消息..
No similar documents were found in file with ID 'file-LzHkASUxbDjTAWBhHxHpIOf4'.Please upload more documents or adjust your query.
只有当我的查询与标签完全匹配时我才会得到结果..
response = dict(openai.Engine('davinci').search(
query='seinfeld',
file=file_id,
max_rerank=5,
#documents=["white house", "school", "seinfeld"],
return_metadata=False))
{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e74f48> JSON: {
"document": 0,
"object": "search_result",
"score": 668.846,
"text": "seinfeld"
}], 'model': 'davinci:2020-05-03'}
我做错了什么?使用 documents
参数或 file
参数的结果不应该相同吗?
重新阅读文档,似乎在使用 file
参数而不是 documents
参数时,服务器首先使用提供的 query
执行基本的“关键字”搜索以缩小范围在最终使用相同的 query
.
通过语义搜索重新排列这些结果之前的结果
这真令人失望。
只是为了提供一个工作示例..
{"text": "stairway to the basement", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "stairway to heaven", "metadata": "metadata here"}
现在使用查询“led zeppelin's most famous song stairway”,服务器会将结果缩小到文档 0 和文档 2 以查找“stairway”标记的匹配项。然后它将执行语义搜索并对它们进行评分。文档 2(“通往天堂的阶梯”)的相关性得分最高。
使用查询“stairway to the underground floor”将为文档 0(“stairway to the basement”)提供最高的相关性分数。
这令人失望,因为查询必须对关键字搜索和语义搜索都有用。
在我原来的 post 中,关键字搜索没有提供任何结果,因为该查询仅用于语义搜索。当使用 documents
参数时,只执行语义搜索,这就是它在那种情况下起作用的原因。
据我了解,您可以使用 documents
参数或 file
参数来告诉 openai 您要执行搜索的标签。我使用 documents
参数得到了预期的结果。我使用 file
参数得到的结果并不令人满意。我希望它们是一样的。
使用 documents
参数执行搜索时..
response = dict(openai.Engine('davinci').search(
query='sitcom',
#file=file_id,
max_rerank=5,
documents=["white house", "school", "seinfeld"],
return_metadata=False))
..我得到了预期的结果..“情景喜剧”以 771 分赢得搜索。
{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e8ef48> JSON: {
"document": 0,
"object": "search_result",
"score": 147.98
}, <OpenAIObject search_result at 0xb5ebd148> JSON: {
"document": 1,
"object": "search_result",
"score": 211.021
}, <OpenAIObject search_result at 0xb5ebd030> JSON: {
"document": 2,
"object": "search_result",
"score": 771.348
}], 'model': 'davinci:2020-05-03'}
现在尝试使用 file
参数,我创建了一个包含内容的 temp.jsonl
文件..
{"text": "white house", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "seinfeld", "metadata": "metadata here"}
然后我将文件上传到 openai 服务器..
res = openai.File.create(file=open('temp.jsonl'), purpose="search")
在哪里..
file_id = res['id']
我等到文件被服务器处理然后..
response = dict(openai.Engine('davinci').search(
query='sitcom',
file=file_id,
max_rerank=5,
#documents=["white house", "school", "seinfeld"],
return_metadata=False))
但是我在执行搜索时收到以下消息..
No similar documents were found in file with ID 'file-LzHkASUxbDjTAWBhHxHpIOf4'.Please upload more documents or adjust your query.
只有当我的查询与标签完全匹配时我才会得到结果..
response = dict(openai.Engine('davinci').search(
query='seinfeld',
file=file_id,
max_rerank=5,
#documents=["white house", "school", "seinfeld"],
return_metadata=False))
{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e74f48> JSON: {
"document": 0,
"object": "search_result",
"score": 668.846,
"text": "seinfeld"
}], 'model': 'davinci:2020-05-03'}
我做错了什么?使用 documents
参数或 file
参数的结果不应该相同吗?
重新阅读文档,似乎在使用 file
参数而不是 documents
参数时,服务器首先使用提供的 query
执行基本的“关键字”搜索以缩小范围在最终使用相同的 query
.
这真令人失望。
只是为了提供一个工作示例..
{"text": "stairway to the basement", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "stairway to heaven", "metadata": "metadata here"}
现在使用查询“led zeppelin's most famous song stairway”,服务器会将结果缩小到文档 0 和文档 2 以查找“stairway”标记的匹配项。然后它将执行语义搜索并对它们进行评分。文档 2(“通往天堂的阶梯”)的相关性得分最高。
使用查询“stairway to the underground floor”将为文档 0(“stairway to the basement”)提供最高的相关性分数。
这令人失望,因为查询必须对关键字搜索和语义搜索都有用。
在我原来的 post 中,关键字搜索没有提供任何结果,因为该查询仅用于语义搜索。当使用 documents
参数时,只执行语义搜索,这就是它在那种情况下起作用的原因。