<推荐阅读>
这两天在看MySQL的经典书籍《高性能MySQL》,对其中的数据类型选择产生了兴趣。同时想起前阵子看到的高并发流量的瓶颈,和以前面试时问的关于MySQL通过索引查找数据时耗时的级别。因此决定来动手算算这些时间。
01 基本数据类型
对于计算机存储,我们知道,计算机内部数据储存的最小单位是“bit比特位”,一个比特位可以存储0或者1。但毕竟一个比特位存储的信息有限,所以使用8个bit来表示1个字节Byte,Byte字节是计算机中数据处理的基本单位,8个bit能表示2^8=256个信息,存储英文字母和其他ASCII码足够了。以下是Java和MySQL的一些基本数据类型存储占用空间。
02 MySQL存储
这里单讲字符类型varchar,MySQL存储varchar时使用头1~2个字节标记varchar的长度,故按理说varchar最长能达到(2^16-1)-2=65532个字符,但别忘记了MySQL规定每一行的最大长度是(2^16-1)=65535个字节,而数据库一般使用utf8编码,故每个中文varchar字符存储为3个字节,因此存储全中文varchar的最大长度可以定义为((2^16-1)-2)/3=21844,即varchar(21844),当然这是在不考虑其他列的情况下。
03 MySQL的查找速度
对于innodb存储引擎,我们知道其默认的索引数据结构是B+Tree,文件系统和内存中是按页存放和读取的,每页16K,一般的表大概都存放1~3层B+Tree,那么我们来计算一下,3层的B+Tree大概能存放多少数据呢?
按照B+Tree高度为3、?为16K、?行记录1K、主键bigint占8字节来计算,非叶?子可带16K/(8+6指针) =1170个叶子节点,则最?大数量量为1170*1170*16 = 2.19千万行数据。 获取每一层,MySQL需要一次磁盘IO,而一般的磁盘1秒大概能进行100次IO,故如果是一层索引结构,那么通过主键查询只需要0.01s。如下图。
空口无凭,怎么证明磁盘IO大概是1秒100次IO呢?我们知道,磁盘存取数据时间=寻道时间+旋转时间,而旋转延迟取决于磁盘转速,通常使用磁盘旋转一周所需时间的1/2表示。比如,7200转的磁盘平均旋转延迟大约为(1000ms/s*60s/min)/(7200r/min)/2=4.17ms/r,即每一转是4.17毫秒,即一次IO的旋转时间大概4.17毫秒,因此,理论上可以计算出磁盘的最大IOPS(IO Per Second)。假设磁盘平均物理寻道时间为3ms,磁盘转速为7200,则磁盘IOPS理论最大为,IOPS=1000/(3+1000*60/7200/2)=140。
04 QPS与网站的并发量级
说完MySQL通过索引查找数据的时间,接下来看看web网站的几个并发量级。假设现在一台服务器上有一个restful接口,该接口请求和返回参数最大为10KB。以下是阿里云的带宽费用,带宽表示出站速率。
(1)百兆带宽 -- 1250QPS
单机单接口10KB大小,百兆带宽意味着网站出口的实际带宽是100Mb/8b/B=12.5MB,能抗得住的最高并发为(100Mb/8b/B)/10KB=1250。
(2)C10K -- 10KQPS
C10K就是Client 10000问题,即「在同时连接到服务器的客户端数量超过10000个的环境中,即便硬件性能足够,依然无法正常提供服务」,但是据说淘宝在12年双11的时候,QPS已经能达到40K了。
(3)DB极限型 -- 15100QPS
这只是假设,如上,我们分析了如果数据库走的是聚集索引,那么其每次IO的时间大概是0.01s,MySQL默认的最大连接数为151,因此一次性可以处理151个请求,则qps为151*(1s/0.01s)=15100。当然,这是极端的状态,然而并发到达151个并发,MySQL不可能还能保持在0.01s的IO.