百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 博客教程 > 正文

InnoDB行格式(3)VARCHAR最多能存储的数据

connygpt 2024-09-12 13:55 9 浏览

InnoDB存储引擎VARCHAR最多能存储的数据

前言

我们知道在InnoDB存储引擎中,行格式Compact、Compressed、Dynamic都会计算变长字段VARCHAR长度列表,这个字段长度一般采用两个字节表示,也就是VARCHAR能表示的最大长度应该是2的16次方(因为一个字节8位,两个字节16位能表示的最大值是65535),那么65535个字节长度是否能存放呢?测试案例如下

mysql> create table test_varchar_size(
    -> c varchar(65535)
    -> )CHARSET=ascii ROW_FORMAT=Compact;
ERROR 1118 (42000): Row size too large. The maximum row size for the 
used table type, not counting BLOBs, is 65535. This includes storage 
overhead, check the manual. You have to change some columns to TEXT or BLOBs

分析

很明显错误信息提示,我们列c设置的长度太长,注意MySQL对一条记录占用最大的空间有限制,所有列(不包含隐藏列和记录头信息)长度之和需要小于65535,当然这并不包含TEXT或者BLOBs类型的列。也就是说test_varchar_size测试表还有其它数据占据空间,我们先来分析一条数据的基本信息,以Compact行格式为例

这里的长度不计算记录头信息以及隐藏列那么还剩下如下三部分数据

  • 字段的真实数据。
  • 字段的长度数据。
  • 字段的NULL值列表。

ascii字符集

字段的长度数据也就是长度列表最大两个字节,字段c没有指明not null所以占用一个字节(只有一个字段其实只占用了一个bit位,但需要用一整个字节表示所以高位补0),而test_varchar_size测试表的的字符集为ascii,只需要用一个字节就可以表示一个字符,其余编码集可以参考如下数据。

### 查询所有的字符集,总共有41种下面抽取常见字符集
### Maxlen表示一个字符最大需要几个字节表示
mysql> show charset;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_general_ci  |      4 |
.......
+----------+---------------------------------+---------------------+--------+

所以采用ascii的测试表test_varchar_size唯一c字段长度应该为

65535 - 2(变长字符长度列表)-1(NULL值列表)= 65532

mysql> create table test_varchar_size(
    -> c varchar(65532)
    -> )CHARSET=ascii ROW_FORMAT=Compact;
Query OK, 0 rows affected (0.01 sec)

在上面分析中我们提到了字符集影响字段c的最大长度,那么非ascii是如何影响的呢?往下面走

gbk字符集

通过show charset like '%gbk%';命令我们可以得到gbk一个字符最大需要两个字节才能表示,演示如下

mysql> show charset like '%gbk%';
+---------+------------------------+-------------------+--------+
| Charset | Description            | Default collation | Maxlen |
+---------+------------------------+-------------------+--------+
| gbk     | GBK Simplified Chinese | gbk_chinese_ci    |      2 |
+---------+------------------------+-------------------+--------+
1 row in set (0.00 sec)

那么采用gbk字符c字段能表示的最大长度应该为

65535 - 2(变长字符长度列表)-1(NULL值列表)= 65532

65532 / 2 = 32766

结果验证如下

mysql> create table test_varchar_size(
    -> c varchar(32767)
    -> )CHARSET=gbk ROW_FORMAT=Compact;
ERROR 1118 (42000): Row size too large. The maximum row size 
for the used table type, not counting BLOBs.......
mysql> create table test_varchar_size(
    -> c varchar(32766)
    -> )CHARSET=gbk ROW_FORMAT=Compact;
Query OK, 0 rows affected (0.01 sec)

utf8字符集

utf8字符集验证和gbk字符集验证类似,因为utf8一个字符需要三个字节表示,所以c字段能表示的最大长度就是

65532 / 3 = 21844

注意

上面分析时只采用了一个字段,并且字段c是允许为空的,就直接采用上面的规则分析,如果c字段设置了NOT NULL那么就不需要65535-1的操作,实际分析时需要根据情况具体分析。

相关推荐

3分钟让你的项目支持AI问答模块,完全开源!

hello,大家好,我是徐小夕。之前和大家分享了很多可视化,零代码和前端工程化的最佳实践,今天继续分享一下最近开源的Next-Admin的最新更新。最近对这个项目做了一些优化,并集成了大家比较关注...

干货|程序员的副业挂,12个平台分享

1、D2adminD2Admin是一个完全开源免费的企业中后台产品前端集成方案,使用最新的前端技术栈,小于60kb的本地首屏js加载,已经做好大部分项目前期准备工作,并且带有大量示例代码,助...

Github标星超200K,这10个可视化面板你知道几个

在Github上有很多开源免费的后台控制面板可以选择,但是哪些才是最好、最受欢迎的可视化控制面板呢?今天就和大家推荐Github上10个好看又流行的可视化面板:1.AdminLTEAdminLTE是...

开箱即用的炫酷中后台前端开源框架第二篇

#头条创作挑战赛#1、SoybeanAdmin(1)介绍:SoybeanAdmin是一个基于Vue3、Vite3、TypeScript、NaiveUI、Pinia和UnoCSS的清新优...

搭建React+AntDeign的开发环境和框架

搭建React+AntDeign的开发环境和框架随着前端技术的不断发展,React和AntDesign已经成为越来越多Web应用程序的首选开发框架。React是一个用于构建用户界面的JavaScrip...

基于.NET 5实现的开源通用权限管理平台

??大家好,我是为广大程序员兄弟操碎了心的小编,每天推荐一个小工具/源码,装满你的收藏夹,每天分享一个小技巧,让你轻松节省开发效率,实现不加班不熬夜不掉头发,是我的目标!??今天小编推荐一款基于.NE...

StreamPark - 大数据流计算引擎

使用Docker完成StreamPark的部署??1.基于h2和docker-compose进行StreamPark部署wgethttps://raw.githubusercontent.com/a...

教你使用UmiJS框架开发React

1、什么是Umi.js?umi,中文可发音为乌米,是一个可插拔的企业级react应用框架。你可以将它简单地理解为一个专注性能的类next.js前端框架,并通过约定、自动生成和解析代码等方式来辅助...

简单在线流程图工具在用例设计中的运用

敏捷模式下,测试团队的用例逐渐简化以适应快速的发版节奏,大家很早就开始运用思维导图工具比如xmind来编写测试方法、测试点。如今不少已经不少利用开源的思维导图组件(如百度脑图...)来构建测试测试...

【开源分享】神奇的大数据实时平台框架,让Flink&Spark开发更简单

这是一个神奇的框架,让Flink|Spark开发更简单,一站式大数据实时平台!他就是StreamX!什么是StreamX大数据技术如今发展的如火如荼,已经呈现百花齐放欣欣向荣的景象,实时处理流域...

聊聊规则引擎的调研及实现全过程

摘要本期主要以规则引擎业务实现为例,陈述在陌生业务前如何进行业务深入、调研、技术选型、设计及实现全过程分析,如果你对规则引擎不感冒、也可以从中了解一些抽象实现过程。诉求从硬件采集到的数据提供的形式多种...

【开源推荐】Diboot 2.0.5 发布,自动化开发助理

一、前言Diboot2.0.5版本已于近日发布,在此次发布中,我们新增了file-starter组件,完善了iam-starter组件,对core核心进行了相关优化,让devtools也支持对IAM...

微软推出Copilot Actions,使用人工智能自动执行重复性任务

IT之家11月19日消息,微软在今天举办的Ignite大会上宣布了一系列新功能,旨在进一步提升Microsoft365Copilot的智能化水平。其中最引人注目的是Copilot...

Electron 使用Selenium和WebDriver

本节我们来学习如何在Electron下使用Selenium和WebDriver。SeleniumSelenium是ThoughtWorks提供的一个强大的基于浏览器的开源自动化测试工具...

Quick 'n Easy Web Builder 11.1.0设计和构建功能齐全的网页的工具

一个实用而有效的应用程序,能够让您轻松构建、创建和设计个人的HTML网站。Quick'nEasyWebBuilder是一款全面且轻巧的软件,为用户提供了一种简单的方式来创建、编辑...