ElasticSearch 字段类型介绍
一、字段類型概述
二、字符串類型ElasticSearch對字符串擁有兩種完全不同的搜索方式. 你可以按照整個文本進行匹配, 即關鍵詞搜索(keyword search), 也可以按單個字符匹配, 即全文搜索(full-text search).
對ElasticSearch稍有了解的人都知道, 前者的字符串被稱為not-analyzed字符, 而后者被稱作analyzed字符串。
Text: 會分詞,然后進行索引 支持模糊、精確查詢 不支持聚合 keyword: 不進行分詞,直接索引 支持模糊、精確查詢 支持聚合
text用于全文搜索的, 而keyword用于關鍵詞搜索.
(1)string
string類型在ElasticSearch 舊版本中使用較多,從ElasticSearch 5.x開始不再支持string,由text和keyword類型替代。
(2)text
當一個字段是要被全文搜索的,比如Email內容、產品描述,應該使用text類型。設置text類型以后,字段內容會被分析,在生成倒排索引以前,字符串會被分析器分成一個一個詞項。text類型的字段不用于排序,很少用于聚合。
PUT my_index
{
"mappings": {
"_doc": {
"properties": {
"name": {
"type": "text"
}
}
}
}
}
}
如果不指定類型,ElasticSearch字符串將默認被同時映射成text和keyword類型,會自動創建下面的動態映射(dynamic mappings):
{
"foo": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
}
ignore_above忽略長度超過256字符串。
這就是造成部分字段還會自動生成一個與之對應的“.keyword”字段的原因。
一個字符串字段可以映射為text字段用于全文本搜索,也可以映射為keyword字段用于排序或聚合,這時候需要用到fields設置多字段。如果業務關系中,需要該字段支持兩種類型的查詢,可以設置為如下形式:
PUT my_index
{
"mappings": {
"_doc": {
"properties": {
"name": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
}
name.raw字段是name字段的keyword版本。
(3)keyword
keyword類型適用于索引結構化的字段,比如email地址、主機名、狀態碼和標簽。如果字段需要進行過濾(比如查找已發布博客中status屬性為published的文章)、排序、聚合。keyword類型的字段只能通過精確值搜索到。
{
"foo": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
}
三、整數類型
在滿足需求的情況下,盡可能選擇范圍小的數據類型。比如,某個字段的取值最大值不會超過100,那么選擇byte類型即可。迄今為止吉尼斯記錄的人類的年齡的最大值為134歲,對于年齡字段,short足矣字段的長度越短,索引和搜索的效率越高。
四、浮點類型
對于float、half_float和scaled_float,-0.0和+0.0是不同的值,使用term查詢查找-0.0不會匹配+0.0,同樣range查詢中上邊界是-0.0不會匹配+0.0,下邊界是+0.0不會匹配-0.0。
其中scaled_float,比如價格只需要精確到分,price為57.34的字段縮放因子為100,存起來就是5734。
優先考慮使用帶縮放因子的scaled_float浮點類型。
五、date類型
日期類型表示格式可以是以下幾種:
1.日期格式的字符串,比如 “2018-01-13” 或 “2018-01-13 12:10:30” 2.long類型的毫秒數( milliseconds-since-the-epoch,epoch就是指UNIX誕生的UTC時間1970年1月1日0時0分0秒) 3.integer的秒數(seconds-since-the-epoch)
ElasticSearch 內部會將日期數據轉換為UTC,并存儲為milliseconds-since-the-epoch的long型整數。
例子:日期格式數據
"properties": {
"postdate":{
"type":"date",
"format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
}
}
六、boolean類型
邏輯類型(布爾類型)可以接受true/false/”true”/”false”值
"properties": {
"empty":{
"type":"boolean"
}
}
七、binary類型
二進制字段是指用base64來表示索引中存儲的二進制數據,可用來存儲二進制形式的數據,例如圖像。默認情況下,該類型的字段只存儲不索引。二進制類型只支持index_name屬性。
八、array類型
在ElasticSearch中,沒有專門的數組(Array)數據類型,但是,在默認情況下,任意一個字段都可以包含0或多個值,這意味著每個字段默認都是數組類型,只不過,數組類型的各個元素值的數據類型必須相同。在ElasticSearch中,數組是開箱即用的(out of box),不需要進行任何配置,就可以直接使用。
在同一個數組中,數組元素的數據類型是相同的,ElasticSearch不支持元素為多個數據類型:[ 10, “some string” ],常用的數組類型是:
字符數組: [ “one”, “two” ]
整數數組: productid:[ 1, 2 ]
對象(文檔)數組:
“user”:[ { “name”: “Mary”, “age”: 12 }, { “name”: “John”, “age”: 10 }],
ElasticSearch內部把對象數組展開為
{“user.name”: [“Mary”, “John”], “user.age”: [12,10]}
九、ip類型
ip類型的字段用于存儲IPv4或者IPv6的地址
PUT my-index
{
"mappings": {
"properties": {
"ip_addr": {
"type": "ip"
}
}
}
}
PUT my-index/_doc/1
{
"ip_addr": "192.168.1.1"
}
IPv4 的 IP 地址含有4個 bytes,而每個 byte 含有8個 digits。/16 即表示前面的 16 位的 digits,也即 192.168。我們可以這么說任何一個 IP 地址位于 192.168.0.0 至 192.168.255.255 都在這個范圍內。
GET my-index/_search
{
"query": {
"term": {
"ip_addr": "192.168.0.0/16"
}
}
}
總結
以上是生活随笔為你收集整理的ElasticSearch 字段类型介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4d打印技术有哪些材料
- 下一篇: UTF-8&Unicode,0x