Elasticsearch 计数分词中的token使用实例

2023-02-01 10:48 开发作者： Elasticsearch

正文

在我们针对 text 类型的字段进行分词时，分词器会把该字段分解为一个个的 token。如果你对分词器还不是很理解的话，请参考我之前的文章 “Elasticsearch: analyzer”。在分词时，有一个叫做 token_count 的类型。该类型是 token 的计数器，也就是说，我们可以使用它来了解在索引字段时在字符串中生成的 token 数量。

我们下面用一个比较简单的例子来进行展示。在我们的示例中，我们将索引一些书名，并且我们将过滤标题中只有 2 个 token 的书。

`
 PUT book_token_count_test
 {
   "mappings": {
     "proper编程客栈ties": {
       "book_name": {
         "type": "text",
         "fields": {
           "size": {
             "type": "token_count",
              "analyzer": "standard"
            }
          }
        }
      }
    }
  }
`![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)

使用命令写入文档

我们使用如下的命令来写入一下文档：

  POST book_token_count_test/_bulk
  {"index":{}}
  { "book_name": "Ulysses" }
  {"index":{}}
  { "book_name": 编程客栈"Don Quixote" }
  {"index":{}}
  { "book_name": "One Hundred Years of Solitude" }

搜索 token 文档

我们使用如下的命令来搜索 token 数为 2 的文档：

 GET book_token_count_test/_search
 {
   "query": {
     "term": {
       "book_name.size": {
         "value": "2"
       }
     开发者_Js入门}
   }
  }

上面搜索的结果为：

`
 {
   "took": 273,
   "timed_out": false,
   "_shards": {
     "total": 1,
     "successful": 1,
     "skipped": 0,
     "failed": 0
   },
    "hits": {
      "total": {
        "value": 1,
        "relation": "eq"
      },
      "max_androidscore": 1,
      "hits": [
        {
          "_index": "book_token_count_test",
          "_id": "cxczBoYB6OPboMnB7TQu",
          "_score": 1,
          "_source": {
            "book_name": "Don Quixote"
          }
        }
      ]
    }
  }
`![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)

我们可以使用 range 查询来检索 book_name 中包含 3 个以上 token 的文档，我们只会得到标题为 “One Hundred Years of Solitude” 的文档。

  GET book_token_count_test/_search
  {
    "query": {
      "range":android {
        "book_name.size": {
          "gte": 3
        }
      }
    }
  }

上面搜索的结果为：

`
  {
    "took": 1,
    "timed_out": false,
    "_shards": {
      "total": 1,
      "successful": 1,
      "skipped":python 0,
      "failed": 0
    },
    "hits": {
      "total": {
        "value": 1,
        "relation": "eq"
      },
      "max_score": 1,
      "hits": [
        {
          "_index": "book_token_count_test",
          "_id": "dBczBoYB6OPboMnB7TQu",
          "_score": 1,
          "_source": {
            "book_name": "One Hundred Years of Solitude"
          }
        }
      ]
    }
  }
`![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)

以上就是Elasticsearch 计数分词中的token使用实例的详细内容，更多关于Elasticsearch计数分词token的资料请关注我们其它相关文章！

继续阅读：Elasticsearch token Elasticsearch计数分词token

Elasticsearch 计数分词中的token使用实例

目录

正文

使用命令写入文档

搜索 token 文档

更多精彩内容

精彩评论

最新开发

基于C++实现一个Windows多功能计算器

C#实现高效读写Excel工作表

SpringBoot登录认证前后端实现方案：SpringBoot + Mybatis + JWT（图文实例）

Java 8 Optional解决空指针问题全面解析

nacos未自动注册问题及解决

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）