【发布时间】:2018-04-05 10:01:12
【问题描述】:
我正在尝试使用 Elasticsearch 为英语语言的 HTML 文档编制索引。数据采用原始 HTML 格式。我找到了一个过滤 HTML 标记的设置,但我不能将此过滤器 与 英文分析器一起使用。
我希望此设置返回三个标记,但它返回五个标记,因为它将“html”视为标记两次。
POST _analyze
{
"analyzer": "english",
"char_filter": ["html_strip"],
"text": "<html>It will be raining in yosemite this weekend</html>"
}
我怎样才能只为上面的文本获取三个标记(无 HTML 标记),这样我的返回结果如下所示?
{
"tokens": [
{
"token": "rain",
"start_offset": 11,
"end_offset": 18,
"type": "<ALPHANUM>",
"position": 3
},
{
"token": "yosemit",
"start_offset": 22,
"end_offset": 30,
"type": "<ALPHANUM>",
"position": 5
},
{
"token": "weekend",
"start_offset": 36,
"end_offset": 43,
"type": "<ALPHANUM>",
"position": 7
}
]
}
【问题讨论】:
标签: elasticsearch