||
本章使用的测试数据库为GreatSQL8.0.25版本
(Wed Aug 3 16:17:03 2022)[root@GreatSQL][(none)]>select version();+-----------+| version() |+-----------+| 8.0.25-16 |+-----------+1 row in set (0.00 sec)
随着用户的增加,以及应用程序的复杂的提升,我们很难更快
的去定义数据库调优的目标,因为用户在不同的时间段访问服务器遇到的瓶颈不同,比如双十一促销带来的大规模并发访问
;还有用户在进行不同业务操作的时候,数据库的事务处理
和SQL查询
都会有所不同。因此我们还需要更加精细的去定位,去确定调优的目标。
如何确定呢?一般情况如下,有如下几种方式:
我们需要调优的对象是整个数据库管理系统,它不仅包括SQL查询,还包括数据库的部署配置、架构等。从这个角度来说,我们思考的维度不仅仅局限在SQL优化上了。
如果对事务性处理
以及安全性要求高
的话,可以选择商业的数据库产品,这些数据库在事务处理和查询性能上都比较强,比如采用SQL Server、Oracle,那么单表存储上亿条数据
是没有问题的。如果数据表设计的好,即使不采用分库分表
的方式,查询效率也不差。
除此之外,你也可以采用开源的MySQL进行存储,他有很多存储引擎可以选择,如果进行事务处理的话可以选择InnoDB,非事务处理可以选择MyISAM。
NoSQL包括键值型数据库、文档数据库、搜索引擎、列式存储、图形数据库
。这些数据库的优缺点和使用场景各有不同,比如列式存储数据库可以大幅度降低系统的I/O,适合于分布式文件系统,但如果数据需要频繁的增删改,那么列式存储就不太适用。
DBMS的选择关系到了后面的整个设计过程,所以第一步就是选择合适的DBMS
选择了合适的DBMS以后,我们就要进行表的设计,表的设计方式也会影响到后续的SQL查询语句。RDBMS中,每个对象都可以定义为一个表,表与表之间的关系代表了对象之间的关系。如果用的是MySQL,我们还可以根据不同的表的使用需求,选择不同的存储引擎。除此之外,还有一些优化的原则可以参考。
数据表的结构设计很基础,也很关键。好的表结构可以在业务发展和用户增加的情况下依然发挥作用,不好的表结构设计会让数据库变得非常臃肿,查询效率也会降低。
当我们建立好数据表以后,就可以对数据进行CRUD操作了。这时我们首先要考虑的时逻辑查询优化。
SQL查询优化,可以分为逻辑查询优化
和物理查询优化
,逻辑查询优化就是通过改变SQL语句内容让SQL执行效率更高效,采用的方式是对SQL语句进行等价变换,对查询进行重写。
SQL的查询重写包括了子查询优化,等价谓词重写,视图重写,条件简化,连接消除和嵌套连接消除等
比如我们在EXISTS子查询和IN子查询的时候,会根据小表驱动大表
的原则选择合适的子查询,在WHERE子句中会避免对字段进行函数运算,他们会让字段索引失效。
物理查询优化在确定了逻辑查询优化以后,采用物理优化技术,例如索引
等。通过计算代价模型对各种可能的访问路径进行估算,从而找到执行方式中代价最小的作为执行计划。这个部分中,我们需要掌握的重点是对索引的创建和使用
但是索引不是万能的,我们需要根据实际情况来创建索引。SQL查询的时候需要对不同的数据表进行查询,因此在物理查询优化阶段也需要确定这些查询所采用的路径,具体的情况包括:
除了可以对SQL本身进行优化之外,我们还可以请外援提升查询效率。
因为数据都是存放在数据库中的,我们需要从数据库层中取出数据放到内存中进行业务逻辑的操作,当用户量增大的时候,如果频繁的搜索,会消耗很多资源,如果我们将数据直接放到内存中,就会大幅度提升查询效率。
键值存储数据库可以帮助我们解决这个问题
常用的键值存储数据库有Redis和Memcached,他们都可以将数据放在内存中。
从可靠性来说,Redis支持持久化
,可以让我们的数据保存在硬盘上,不过这样一来性能消耗也会比较大,而Memcached仅仅是内存存储,不支持持久化。
从支持的数据类型来说,Redis比Memcached更多,它不仅仅支持key-value类型的数据,还支持List、Set、Hash
等数据结构,当我们持久化需求或者是更高级的数据处理需求的时候,就可以使用Redis,如果简单的Key-valus存储,就可以选择Memcached
通常我们对于查询响应要求高的场景(响应时间短,吞吐量大),可以考虑内存数据库。传统的DBMS都是将数据存储在硬盘上,而内存数据库则存放在内存中,查询起来要快得多,不过使用不同的工具,也会增加开发人员的成本。
库级优化是站在数据库维度上进行优化策略,比如控制一个库中的数据表数量,另外单一的数据库总会遇到各种限制,不如取长补短,利用‘外援’的方式。通过主从架构
优化我们的读写策略,通过对数据库进行垂直或水平切分,突破单一数据库或数据表的访问限制,提升查询性能。
1,读写分离
如果读和写业务量巨大的话,且都在一个数据库服务器内完成,那么数据库性能就会出现瓶颈,这是为了提升系统的性能,优化用户体验,我们可以采用读写分离
的方式降低主数据库的负载,比如用主数据库(master)完成操作,用从数据库(slave)完成读操作。
2,数据分片
对数据库分库分表
当数量级到达千万以上,有时候我们需要把一个数据库切分成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。如果使用的是MySQL就可以使用SQL自带的分区表功能,当然你也可自己考虑做垂直拆分(分库)
、水平拆分(分表)
,垂直+水平拆分
(分库分表)
但是分拆在提升数据库性能的同时,也会增加维护和使用成本。
优化MySQL服务器主要从两个方面来优化,一方面是对服务器硬件进行优化;另一方面是对MySQL服务的参数进行优化。
服务器的硬件性能直接决定着MySQL数据库的性能
。硬件的性能瓶颈直接决定MySQL数据库的运行速度和效率。针对性能瓶颈提高硬件配置,可以提高MySQL数据库查询、更新的速度。
(1)配置较大的内存
。足够大的内存是提高MySQL数据库性能的方法之一。内存的速度比磁盘I/O快得多,可以通过增加系统的缓冲区容量使数据在内存中停留的时间更长,以减少磁盘I/O。
(2)配置高速磁盘系统
,以减少读盘的等待时间,提高响应速度。磁盘的I/O能力,也就是它的寻道能力,目前的SCSI
高速旋转的是7200转/分钟,这样的速度,一旦访问的用户量上去,磁盘的压力就会过大,如果是每天的网站pv (page view)在150w,这样的一般的配置就无法满足这样的需求了。现在SSD
盛行,在SSD上随机访问和顺序访问性能几乎差不多,使用SSD可以减少随机I/O带来的性能损耗。
(3)合理分布磁盘I/O
,把磁盘I/O分散在多个设备上,以减少资源竞争,提高并行操作能力。
(4)配置多处理器
,MySQL是多线程的数据库,多处理器可同时执行多个线程。
通过优化MySQL的参数可以提高资源利用率,从而达到提高MySQL服务器性能的目的。
MySQL服务的配置参数都在my .cnf(Linux系统)或者my.ini(Windows系统)文件的[mysqld]组中。配置完参数以后,需要重新启动MySQL服务才会生效。
下面对几个对性能影响比较大的参数进行详细介绍:
SELECT SQL_NO_CACHE * FROM tbl_name;
- 当query_cache_type=2时(DENAND),只有在查询语句中使用SQL_CACHE关键字,查询才会使用查询缓存区。使用查询缓存区可以提高查询的速度,这种方式只适用于修改操作少且经常执行相同的查询操作的情况。
(数据文件存储顺序)是MySQL读入缓冲区的大小,将对表进行顺序扫描的线程将分配一个读入缓冲区,MySQL会为它分配一段内存缓冲区,read_buffer_size变量控制这一缓冲区的大小,如果对表的顺序扫描非常频繁,并你认为频繁扫描进行的太慢,可以通过增加该变量值以及内存缓冲区大小提高其性能,read_buffer_size变量控制这一提高表的顺序扫描的效率。SET SESSION read_buffer_size=n可以临时设置该参数的值。默认为64K,可以设置为4M。
unauthenticated user | xxx.xxx.xxx.xxx | NULL | Connect | NULL | login | NULL 的待连接进程时.
cat /proc/sys/net/ipv4/tcp_max_syn_backlog
目前系统为1024。对于Linux系统推荐设置为大于512的整数。
拆分表的思路是,把1个包含很多字段的表拆分成2个或者多个相对较小的表。
这样做的原因是,这些表中某些字段的操作频率很高(热数据),经常要进行查询或者更新操作,而另外一些字段的使用频率却很低(冷数据),冷热数据分离,可以减小表的宽度。
如果放在一个表里面,每次查询都要读取大记录,会消耗较多的资源。
对于需要经常联合查询的表,可以建立表以提高查询效率。通过建立中间表,把需要经常联合查询的数据插入中间表中,然后将原来的联合查询改为对中间表的查询,以此来提高查询效率。
首先,分析经常联合查询表中的字段,然后,使用这些字段建立一个中间表并将原来联合查询的表的数据插入中间表;最后,使用中间表来进行查询。
需要进行多表查询的时候,可以进行反范式化,通过增加冗余字段增加查询效率。但要确保数据一致性。
表字段的数据类型选择合理,可以采用数值类型就不要采用字符类型;字符类型要尽可能设计的短一点,当字符串长度固定时,就采用CHAR类型,当长度不固定时,采用VARCHAR。
避免使用 TEXT、BLOG这样的大数据类型。
使用TIMESTAMP(4字节)存储时间。
用DECIMAL 代替 FLOAT 和 DOUBLE 存储精确浮点数。
优先选择符合储存需要的最小的数据类型。
列的字段越大,建立索引时所需要的空间也就越大,这样一页中所能存储的索引节点的数量也就越少,在遍历时所需要的IO次数也就越多,索引的性能也就越差。
修改数据类型,节省空间同时,要考虑到数据不能超过取值范围。
插入记录是影响插入速度的只要是 索引、唯一性约束和一次插入的记录条数等。
对于InNoDB引擎的表优化插入记录:
set unique_checks=0
插入数据后再开启:
set unique_checks=1
set foreign_key_check=0;
插入数据之后再恢复:
set foreign_key_check=1;
set autocommit=0;
插入数据之后再恢复:
set autocommit=1;
在设计字段的时候,如果业务允许,建议尽量使用非空约束。这样做的好处是:
分析表主要是分析关键词的分布
MySQL 提供了 ANALYZE TABLE 语句分析表,执行 analyze table 时,会对表加上读锁(read lock)
如果开启了binlog,那么Analyze Table的结果也会写入binlog,我们可以在analyze和table之间添加关键字local取消写入。
MySQL 中可以使用 CHECK TABLE 语句来检查表。CHECK TABLE语句能够检查innoDB和MylSAM米型的表是否存在错误。CHECK TABLE语句在执行过程中也会给表加上只读锁。
MySQL中使用 OPTIMIZE TABLE 语句来优化表。但是,OPTILMIZE TABLE语句只能优化表中的VARCHAR、 BLOB或TEXT类型的字段。一个表使用了这些字段的数据类型,若已经删除了表的一大部分数据,或者已经对含有可变长度行的表(含有VARCHAR、BLOB或TEXT列的表)进行了很多更新,则应使用OPTIMIZE TABLE来重新利用未使用的空间,并整理数据文件的碎片,在执行过程中也会给表加上只读锁。
当MySQL单表记录数过大时,数据库的增删改查性能会明显下降,可以参考以下步骤来优化:
禁止不带任何限制数据范围条件的查询语句。
是目前常用的优化,从库读,主库写,一般不要采用双主或多主引入很多复杂性,尽量采用文中的其他方案来提高性能。同时目前很多拆分的解决方案同时也兼顾考虑了读写分离。
垂直分库是根据数据库里面的数据表的相关性进行拆分,比如:一个数据库里面既存在用户数据,又存在订单数据,那么垂直拆分可以把用户数据放到用户库、把订单数据放到订单库。垂直分表是对数据表进行垂直拆分的一种方式,常见的是把一个多字段的大表按常用字段和非常用字段进行拆分,每个表里面的数据记录数一般情况下是相同的,只是字段不一样,使用主键关联。
垂直拆分的优点是:
垂直拆分的缺点是:
水平拆分是通过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不同的MySQL表或库,达到分布式的效果,能够支持非常大的数据量。前面的表分区本质上也是一种特殊的库内分表。
库内分表,仅仅是单纯的解决了单一表数据过大的问题,由于没有把表的数据分布到不同的机器上,因此对于减轻MySQL服务器的压力来说,并没有太大的作用,大家还是竞争同一个物理机上的IO、CPU、网络,这个就要通过分库来解决。
在MySQL 8.0中可以设置服务器语句超时的限制,单位可以达到毫秒级别。当中断的执行语句超过设置的毫秒数后,服务器将终止查询影响不大的事务或连接,然后将错误报给客户端。
设置服务器语句超时的限制,可以通过设置系统变量MAX_EXECUTION_TIME 来实现。默认情况下,MAX_EXECUTION_TIME的值为0,代表没有时间限制。
set SESSION MAX_EXECUTION_TIME=2000 -- 指定该会话中select语句的超时时间
MySQL 8.0使用CREATE TABLESPACE语句来创建一个全局通用表空间。全局表空间可以被所有的数据库的表共享,而且相比于独享表空间,使用手动创建共享表空间可以节约元数据方面的内存。可以在创建表的时候,指定属于哪个表空间,也可以对已有表进行表空间修改等。
-- 创建名为test的共享表空间create tablespace test add datafile 'test.idb' file_block_size=16k;
创建表时指定:create table student(id int,name varchar(255))engine=innodb default charset utf8 tablespace test;
修改表时指定:alter table student tablespace test;
如何删除创建的共享表空间?因为是共享表空间,所以不能直接通过drop table tbname删除,这样操作并不能回收空间。当确定共享表空间的数据都没用,并且依赖该表空间的表均已经删除时,可以通过drop tablespace删除共享表空间来释放空间,如果依赖该共享表空间的表存在,就会删除失败。
所以应该先删除依赖该表空间的数据表,最后删除表空间。
不可见索引的特性对于性能调试非常有用。在MySQL 8.0中,索引可以被"隐藏"和“显示”。当一个索引被隐藏时,它不会被查询优化器所使用。也就是说,管理员可以隐藏一个索引,然后观察对数据库的影响。如果数据库性能有所下降,就说明这个索引是有用的,于是将其"恢复显示"即可;如果数据库性能看不出变化,就说明这个索引是多余的,可以删掉了。
需要注意的是当索引被隐藏时,它的内容仍然是和正常索引一样实时更新的。如果一个索引需要长期被隐藏,那么可以将其删除,因为索引的存在会影响插入、更新和删除的性能。
数据表中的主键不能被设置为隐藏索引(invisible)。
合作电话:010-64087828
社区邮箱:greatsql@greatdb.com