MySQL的一条慢SQL查询导致整个网站宕机的解决方法(2)-木庄网络博客

当前第2页返回上一页

我们可以看到 ss_si_id 的离散程度（Cardinality）没有增加反而有向下波动的趋势，因为这个信息是采集部分页的来的，而每个页上边数据分布是不一样的，导致我们这个索引收集的统计信息就回有所变化。

好吧，到这里我们可以认为我们的统计信息没有失效，那么我们就看数据的分别情况咯：

+--------------++----------++------------------+
| ss_si_id=0; || count(*) || 7994788/19048617 |
+--------------++----------++------------------+
| 7994788 || 19048617 || 0.4197 |
+--------------++----------++------------------+

额，不看不知道，一看吓一跳：我们这个表里边存在有大量的 ss_si_id＝0 的情况，占了整个表数据量的 41% ！！！

好吧问题找到了，那么接下来我们需要知道，为什么这个SQL语句会导致挂站呢？

我们通过观看应用程序服务器的监控看到一些信息：我们的 goods_service 这个服务异常：异常情况如下：

1. cpu 长期占用100% ＋
2. jstatck pid 无法dump 内存堆栈信息，必须强制dump －F
3. dump 出来的内存信息发现，这个进程里边所有线程均处于 BLOCKED 状态
4. 通过jstat －gcutil 看到 FGC 相当频繁，10s左右就FGC一次
5. 内存占用超过了分配的内存

那么最终的原因就是因为上边的慢查询查询了大量数据（最多有700w行数据），导致goods_service 内存暴涨，出现服务无法响应，进一步的恶化就是挂占

OK，知道了为什么会挂占，那么我们是如何解决这个问题的呢？
既然我们知道是由于查询了 ss_si_id＝0 导致的，那么我们屏蔽掉这个SQL不就好了么。屏蔽的办法可以有多种：
1. 我们程序逻辑判断一下这类型的查询如果有查询 ss_si_id＝0 的一律封杀掉
2. 我们改改SQL配置文件，修改SQL语句

我们发现DB服务器上存在大量的这个慢查询，而且DB服务器负载已经从 0.xx 飙升到了 50+ 了，随之而来的连接数也飙升的厉害，如果再不及时处理，估计DB服务器也挂掉了

那么我们最终采取以下处理办法：
1.运维配合研发修改SQL语句我们在这个WHERE 条件中添加了一个条件： AND ss_si_id <> 0 ,在MySQL之行计划层屏蔽掉此SQL;
2.DBA 开启kill 掉这个查询语句，避免DB服务器出现down机的情况，当然这个就用到了我们的 pt-kill 工具，不得不说这个工具相当好用

总结（经验与教训）：
1.类似这种查询 default 值的 SQL ，我们应该从源头上杜绝这类查询
2.限制查询结果集大小，避免因查询结果集太大导致服务死掉

更多SQL内容来自木庄网络博客

标签：SQL

返回前面的内容