php-mysql-es数据写入效率

通过分析得出,查询和循环处理占时短,大部分时间花费在了es的bulk插入上,调优方向就是优化es批量

#sleep(1)的情况
100万数据 读5万 写1万 201秒
100万数据 读5万 写5万 207秒
100万数据 读10万 写1万 203秒
100万数据 读10万 写5万 203秒
100万数据 读10万 写10万 219秒
100万数据 读1万 写1万 344秒

#不加sleep的情况
100万数据 读5万 写1万 205秒
100万数据 读5万 写5万 209秒
100万数据 读10万 写1万 208秒
100万数据 读10万 写5万 198秒
100万数据 读10万 写10万 200秒
100万数据 读1万 写1万 227秒
100万数据 读1万 写5000 226秒

mysql查询效率还可以,es批量写入造成缓慢:
100万数据查询插入消耗250秒

调增’refresh_interval’ => ’30s’,100万数据查询插入230

调增’refresh_interval’ => ’60s’,100万数据查询插入221

调增’refresh_interval’ => ’60s’,100万数据查询插入229

每次插入1000查询插入240

100万数据查询12秒

100万数据查询逻辑循环18秒

500万查询73

500万查询逻辑循环92

linux安装es-head

1安装npm

curl --silent --location https://rpm.nodesource.com/setup_10.x | bash -
yum install -y nodejs
npm install -g cnpm --registry=https://registry.npm.taobao.org
npm install
npm run build
npm -v

2 安装head插件

wget https://github.com/mobz/elasticsearch-head/archive/master.zip
unzip master.zip
cd elasticsearch-head-master
npm install –g grunt–cli

权限

chown -R root:root /home/app/elasticsearch/elasticsearch-head-master/

安装

npm install

head安装完成后,将es后台启动、head也运行起来

./elasticsearch-5.5.1/bin/elasticsearch -d 
/home/app/elasticsearch/elasticsearch-head-master下:npm run start

需要后台启动执行
#nohup npm run start &

因为es是端口9200,而head插件是9100,,解决跨域问题:

elasticsearch-5x下的 config/elasticsearch.yml
http.cors.enabled: true
http.cors.allow-origin: "*"

linux安装es

1.解压 tar -zxvf elasticsearch-7.7.1-linux-x86_64.tar.gz
移动  mv elasticsearch-7.7.1 /usr/local/
cd /usr/local/
创建新用户  useradd esuser
赋权 chown -R esuser:esuser /usr/local/elasticsearch-7.7.1/

主配置文件修改 vim elasticsearch.yml

node.name: node-1
cluster.initial_master_nodes: ["node-1"]

network.host: 0.0.0.0

 

查看端口 netstat -tunlp|grep 9200

开启

su esuser
cd /usr/local/elasticsearch-7.7.1/bin/

./elasticsearch -d
问题:

vim /etc/security/limits.conf //保存后需要重新登录

* soft nofile 65536
* hard nofile 131072
* soft nproc 4096
* hard nproc 4096

976 vim /etc/sysctl.conf

vm.max_map_count=262145

sysctl -p//保存后刷新配置


[ES]模糊搜索match_phrase和wildcard的比较

代码示例
<?php
$params = [
    'index' => 'mysql_table_test',
    'type' => 'out',
    'body' => [
        'query' => [
            'bool' => [
                'should' => [
                   [ 'wildcard' => [ 'name' => 'e*'] ],
                ]
            ]
        ],
        'from'=>0,
        'size'=>5,
        'highlight' => [
            'pre_tags' => "<h1 style='color:red'>",
            'post_tags' => "</h1>",
            'fields' => [
                "name" => new \stdClass()
            ]
        ]
    ]
];

$results = $client->search($params);

match_phrase

句子中包含helloworld的都会被搜索出:

 

GET /my_index/address/_search
{
    query: {match:"hello world"}
}

句子中包含hello world的会被搜索出:

 

GET /my_index/address/_search
{
    query: {match_phrase:"hello world"}
}

也就是说hello world 必须相邻。

再看一个例子:

 

GET /my_index/address/_search
{
    query: {match_phrase:{content:"hello world", slop: 2}}
}

这个搜索hello es world也会被搜索出来,因为中间间隔的词数为1 < 2。可以通过指定slot来控制移动词数。

执行过程:
match_phrase执行过程:
1.如match搜索一样进行分词,
2.对分词后的单词到field中去进行搜索(多个term匹配)。这一步返回每个单词对应的doc,并返回这些单词在对应的doc中的位置,
3.对返回的doc进行第一步的筛选,找到每个单词都在同一个field的doc。
4.对第3步进行筛选后的doc进行再一次的筛选,选回位置符合要求的doc。比如,对于match_phrase,就是找到后一个单词的位置比前一个单词的位置大1。或者移动次数<slot的文档。
5.proximity match(使用slot)原理一样,只是第四位对位置进行筛选时的方法不同。

比如要搜索“hello world”

  1. 分词为 hello 和 world
  2. 分别对term hello和world去搜索。返回两者匹配到的文档。
  3. 第一次筛选,取两个的交集。
  4. 继续筛选,对于match_phrase,就是找到后一个单词world的位置比前一个单词hello的位置大1的文档

prefix

  • 在搜索之前它不会分析查询字符串,它认为传入的前缀就是想要查找的前缀
  • 默认状态下,前缀查询不做相关度分数计算,它只是将所有匹配的文档返回,然后赋予所有相关分数值为1。它的行为更像是一个过滤器而不是查询。两者实际的区别就是过滤器是可以被缓存的,而前缀查询不行。
  • 只能找到反向索引中存在的术语

prefix的原理:
需要遍历所有倒排索引,并比较每个term是否已所指定的前缀开头。
比如,

 

Term:          Doc IDs:
-------------------------
"SW5 0BE"    |  5
"W1F 7HW"    |  3
"W1V 3DG"    |  1
"W2F 8HW"    |  2
"WC1N 1LZ"   |  4
-------------------------

GET /my_index/address/_search
{
    "query": {
        "prefix": {
            "postcode": "W1"
        }
    }
}

搜索过程:
为了支持前缀匹配,查询会做以下事情:

  1. 扫描术语列表并查找到第一个以 W1 开始的术语。
  2. 搜集关联的ID
  3. 移动到下一个术语
  4. 如果这个术语也是以 W1 开头,查询跳回到第二步再重复执行,直到下一个术语不以 W1 为止。

如果以w1开头的term很多,那么会有严重的性能问题。但是如果term比较小集合,可以放心使用。

wildcard

  • 工作原理和prefix相同,只不过它在1不是只比较开头,它能支持更为复杂的匹配模式。
  • 它使用标准的 shell 模糊查询:? 匹配任意字符,* 匹配0个或多个字符。

 

GET /my_index/address/_search
{
    "query": {
        "regexp": {
            "postcode": "W[0-9].+" #1
        }
    }
}

这也意味着我们需要注意与前缀查询中相同的性能问题,执行这些查询可能会消耗非常多的资源,所以我们需要避免使用左模糊这样的模式匹配(如,foo 或 .foo 这样的正则式)

注意:
prefix、wildcard 和 regrep 查询是基于术语操作的,如果我们用它们来查询分析过的字段(analyzed field),他们会检查字段里面的每个术语,而不是将字段作为整体进行处理。

match_phrase_prefix

这种查询的行为与 match_phrase 查询一致,不同的是它将查询字符串的最后一个词作为前缀使用。
比如:

 

{
    "match_phrase_prefix" : {
        "brand" : "johnnie walker bl"
    }
} 
  • johnnie
  • 跟着 walker
  • 跟着 一个以 bl 开始的词(prefix)

与 match_phrase 一样,它也可以接受 slop 参数让相对词序位置不那么严格:

 

{
    "match_phrase_prefix" : {
        "brand" : {
            "query": "walker johnnie bl", #1
            "slop":  10
        }
    }
}

我们可以通过设置 max_expansions 参数来限制前缀扩展的影响,一个合理的值是可能是50:

 

{
    "match_phrase_prefix" : {
        "brand" : {
            "query":          "johnnie walker bl",
            "max_expansions": 50
        }
    }
}

参数max_expansions控制着可以与前缀匹配的术语的数量

另一个即时搜索的方法是,使用 Ngram部分匹配, 这种方法会增加索引的开销,但是会加快查询速度。具体可以自行查阅

作者:ten5743
链接:https://www.jianshu.com/p/fb2761cd569b

es操作

创建client对象
<?php
$logger = new Logger('name');
$logger->pushHandler(new StreamHandler('monolog.log', logger::INFO));
$handlerParams = [
    'max_handles' => 100
];
$defaultHandler = ClientBuilder::defaultHandler($handlerParams);

$hosts = [
    '127.0.0.1:9200',         // IP + Port
    //'192.168.1.2',              // Just IP
    // 'mydomain.server.com:9201', // Domain + Port
    //'mydomain2.server.com',     // Just Domain
    //'https://localhost',        // SSL to localhost
    //'https://192.168.1.3:9200'  // SSL to IP + Port
];
$client = ClientBuilder::create()           // Instantiate a new ClientBuilder
->setHosts($hosts)->setLogger($logger)      // Set the hosts
->setHandler($defaultHandler)
    ->build();//创建client对象

继续阅读“es操作”

mysql同步数据到es

1,下载安装logstash和es版本一致

2,解压文件,在bin目录下新建mysql文件夹,在mysql文件夹新建如下4个文件

jdbc.conf

如果同步至es中的字段不需要设置分词,不然查询时分词会导致结果不正确,模糊匹配不能像关系数据库中使用like那样,就需要在jdbc.conf的output里设置template、template_name和template_overwrite,如下所示:

input {
    stdin {
    }
    jdbc {
      jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/www.test.com"
      jdbc_user => "root"
      jdbc_password => "root"
      jdbc_driver_library => "D:\desktoptool\elasticsearch\logstash\logstash-7.7.0\bin\mysql\mysql-connector-java-5.1.49.jar"
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "300000"
      use_column_value => "true"
      tracking_column => "id"
      statement_filepath => "D:\desktoptool\elasticsearch\logstash\logstash-7.7.0\bin\mysql\jdbc.sql"
	  schedule => "* * * * *"
	  type => "jdbc"
	  jdbc_default_timezone =>"Asia/Shanghai"
    }
}
 
 
filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
}
 
 
output {
    elasticsearch {
        hosts => ["localhost:9200"]
        index => "mysql_table_test"
		template => "D:\desktoptool\elasticsearch\logstash\logstash-7.7.0\bin\mysql\es-template.json"
		template_name => "t-statistic-out-logstash"
		template_overwrite => true
		document_type => "out"
        document_id => "%{id}"
    }
    stdout {
        codec => json_lines
    }
}

继续阅读“mysql同步数据到es”

Elasticsearch ik分词器找不到对应dic文件

1.配置了IKAnalyzer.cfg.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">yang.dic;</entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

2.在文件IKAnalyzer.cfg.xml同一级新建yang.dic自定义自定义字典文件
3.重启es报not found file yang.dic

继续阅读“Elasticsearch ik分词器找不到对应dic文件”