Elasticsearch 权威教程 - 相关性排序

本文详细介绍了Elasticsearch中相关性排序的概念、默认排序方式、字段值排序、多级排序以及Explain API的使用,揭示了评分标准和相关性计算背后的原理,帮助理解如何对多值字段进行排序以及数据字段的作用。

相关性排序

默认情况下,结果集会按照相关性进行排序 – 相关性越高,排名越靠前。
这一章我们会讲述相关性是什么以及它是如何计算的。
在此之前,我们先看一下sort参数的使用方法。

排序方式

为了使结果可以按照相关性进行排序,我们需要一个相关性的值。在ElasticSearch的查询结果中,
相关性分值会用_score字段来给出一个浮点型的数值,所以默认情况下,结果集以_score进行倒序排列。

有时,即便如此,你还是没有一个有意义的相关性分值。比如,以下语句返回所有tweets中 user_id 是否
包含值 1

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "term" : {
                    "user_id" : 1
                }
            }
        }
    }
}

过滤语句与 _score 没有关系,但是有隐含的查询条件 match_all 为所有的文档的 _score 设值为 1
也就相当于所有的文档相关性是相同的。

字段值排序

下面例子中,对结果集按照时间排序,这也是最常见的情形,将最新的文档排列靠前。
我们使用 sort 参数进行排序:

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : { "term" : { "user_id" : 1 }}
        }
    },
    "sort": { "date": { "order": "desc" }}
}

你会发现这里有两个不同点:

"hits" : {
    "total" :           6,
    "max_score" :       null, <1>
    "hits" : [ {
        "_index" :      "us",
        "_type" :       "tweet",
        "_id" :         "14",
        "_score" :      null, <1>
        "_source" :     {
             "date":    "2014-09-24",
             ...
        },
        "sort" :        [ 1411516800000 ] <2>
    },
    ...
}

<1> _score 字段没有经过计算,因为它没有用作排序。
<2> date 字段被转为毫秒当作排序依据。

首先,在每个结果中增加了一个 sort 字段,它所包含的值是用来排序的。
在这个例子当中 date 字段在内部被转为毫秒,即长整型数字1411516800000等同于日期字符串 2014-09-24 00:00:00 UTC

其次就是 _scoremax_score 字段都为 null。计算 _score

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值