MySQL 和 elasticsearch 如何同步删除

logstash同步mysql和es 删除除了软删除,有其他更好的办法吗

地址:https://www.zhihu.com/question/351802336/answer/868380109

标签:MySQL、Elasticsearch

具体详情

现在 使用logstash-input-jdbc 插件 在logstash 中同步mysql 重的数据,遇到删除时,目前我时在业务中 mysql 和 es 两边进行删除的,没有其他更好的办法吗,有想过修改mysql 的日志配置,但是目前更改的话风险比较大,还有其他比较好的方法吗?

我的回答

之前翻译过 elastic 官方的一篇文章,主题是 logstash 如何实现关系型数据和 elasticsearch 之间的数据同步,地址如下。这里面有一段已经谈到了删除同步的问题。

ES 译文之使用 Logstash 实现关系型数据库与 ElasticSearch 之间的数据同步

如果一个文档从 MySQL 中删除,该操作并不会同步到 ElasticSearch 中。列举几个我们可以考虑的方案。

MySQL 中的记录可通过包含 is_deleted 字段以表明该条记录是否有效。一旦发生更新,is_deleted 也会同步更新到 ElasticSearch 中。如果通过这种方式,在执行 MySQL 或 ElasticSearch 查询时,重写查询语句来过滤掉 is_deleted 为 true 的记录。同时,可以通过一些后台进程将 MySQL 和 ElasticSearch 中的这些文档删除。

另一个可选方案是,应用系统负责 MySQL 和 ElasticSearch 中数据的删除,即应用系统在删除 MySQL 中数据,同时负责也删除 ElasticSearch 中相应的文档。这个就会到程序层面的开发工作。

再谈一种方案,脱离 logstash 来谈这个问题。

可以通过 mysql 的 binlog 实现数据库中的得事件(增加、更新、删除)同步,任务事件实时同步到 Elasticsearch。这个相对较复杂了。但好在已经有了现成的开源组件可以用,即阿里的 canal,它就是这个思路。不过,我个人认为,项目不大,而且实时性要求不高,还是用 logstash 比较简单省心。canal 在单表时,还比较简单,如果涉及多表,也不方便,根据需求会有不定量的的开发工作。

最后,要依据场景选择合适的方案。把它们进行适时地结合,实时性要求高,用 canal 实现,一般场景,logstash 即可,即使是有题主提的删除,也不建议使用 canal,而是用前面提到的几个思路。有能力的话,其实可以针对这两种方案设计一个数据同步框架,以后只要加个配置即可完成。