【问题标题】:How does MultiLanguage search engines Work多语言搜索引擎如何工作
【发布时间】:2017-08-25 06:23:25
【问题描述】:

今天在youtube上搜索一些视频时发现,即使你搜索非英语的视频,youtube也能返回相关结果。

尝试在 google 上搜索此内容,但我得到的只是一些 api 以编程方式执行此操作。有人可以阐明这背后的理论吗。论文/链接/解释,任何事情都可以。

谢谢

【问题讨论】:

    标签: search elasticsearch youtube full-text-search google-search


    【解决方案1】:

    当我使用 elasticsearch 完成此操作时,我只是为每个文档映射了多个字段,例如:

    "text_val": {
      "type": "text",
      "fields": {
        "en": {
          "type": "text",
          "analyzer": "english"
        },
        "it": {
          "type": "text",
          "analyzer": "italian"
        }
      }
    }
    

    然后只需搜索每个查询的两个字段。这很好用,对于许多应用程序来说已经足够了。但是我确信谷歌正在做一些更复杂的事情,当然是对索引文档和查询的语言识别。如果你想做语言识别,我之前用过python langid,效果不错。

    根据我的经验,您在使用 elasticsearch 处理这类事情时将面临的问题不是多语言部分,而是英语以外的其他语言的分析器并不总是像您一样好用想。您可能必须编写一个自定义分析器,其中包含处理许多特殊情况的规则,并针对您的特定数据集进行调整。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-01-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-05-27
      • 1970-01-01
      相关资源
      最近更新 更多