【问题标题】:Openai semantic search not working with the file parameterOpenai 语义搜索不适用于文件参数
【发布时间】:2022-01-23 22:05:29
【问题描述】:

据我了解,您可以使用documents 参数或file 参数告诉openai 您要执行搜索的标签。我使用documents 参数得到了预期的结果。使用 file 参数时,我得到的结果并不令人满意。我希望它们是一样的。

使用documents 参数执行搜索时..

response = dict(openai.Engine('davinci').search(
    query='sitcom',
    #file=file_id,
    max_rerank=5,
    documents=["white house", "school", "seinfeld"],
    return_metadata=False))

..我得到了预期的结果..“情景喜剧”以 771 分赢得了搜索。

{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e8ef48> JSON: {
  "document": 0,
  "object": "search_result",
  "score": 147.98
}, <OpenAIObject search_result at 0xb5ebd148> JSON: {
  "document": 1,
  "object": "search_result",
  "score": 211.021
}, <OpenAIObject search_result at 0xb5ebd030> JSON: {
  "document": 2,
  "object": "search_result",
  "score": 771.348
}], 'model': 'davinci:2020-05-03'}

现在尝试使用file 参数,我创建了一个包含内容的temp.jsonl 文件..

{"text": "white house", "metadata": "metadata here"}
{"text": "school", "metadata": "metadata here"}
{"text": "seinfeld", "metadata": "metadata here"}

然后我将文件上传到openai服务器..

res = openai.File.create(file=open('temp.jsonl'), purpose="search")

在哪里..

file_id = res['id']

我等到服务器处理完文件然后..

response = dict(openai.Engine('davinci').search(
    query='sitcom',
    file=file_id,
    max_rerank=5,
    #documents=["white house", "school", "seinfeld"],
    return_metadata=False))

但我在执行搜索时收到以下消息..

No similar documents were found in file with ID 'file-LzHkASUxbDjTAWBhHxHpIOf4'.Please upload more documents or adjust your query.

只有当我的查询与标签完全匹配时,我才会得到结果..

response = dict(openai.Engine('davinci').search(
    query='seinfeld',
    file=file_id,
    max_rerank=5,
    #documents=["white house", "school", "seinfeld"],
    return_metadata=False))

{'object': 'list', 'data': [<OpenAIObject search_result at 0xb5e74f48> JSON: {
  "document": 0,
  "object": "search_result",
  "score": 668.846,
  "text": "seinfeld"
}], 'model': 'davinci:2020-05-03'}

我做错了什么?使用documents 参数或file 参数的结果不应该相同吗?

【问题讨论】:

    标签: search openai


    【解决方案1】:

    重读文档,似乎在使用file 参数而不是documents 参数时,服务器首先使用提供的query 执行基本的“关键字”搜索,以缩小结果范围,然后最终重新排列这些结果使用相同的query 进行语义搜索。

    这令人失望。

    只是提供一个工作示例..

    {"text": "stairway to the basement", "metadata": "metadata here"}
    {"text": "school", "metadata": "metadata here"}
    {"text": "stairway to heaven", "metadata": "metadata here"}
    

    现在使用查询“led zeppelin's most Famous song stairway”,服务器会将结果缩小到文档 0 和文档 2,查找“stairway”标记的匹配项。然后它将执行语义搜索并对它们进行评分。文档 2(“通往天堂的阶梯”)的相关性得分最高。

    使用查询“通往地下层的楼梯”将为文档 0(“通往地下室的楼梯”)提供最高相关性分数。

    这令人失望,因为查询必须对关键字搜索和语义搜索都有用。

    在我原来的帖子中,关键字搜索没有提供任何结果,因为该查询只是为语义搜索而设计的。使用documents 参数时,只执行语义搜索,这就是它在这种情况下起作用的原因。

    【讨论】:

    • 如果您想要语义搜索,而不是关键字搜索后跟语义重新排名,那么像 PineconeFaiss 这样的替代工具是更好的选择。
    猜你喜欢
    • 2015-12-09
    • 2016-06-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-07-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多