Mysql入门篇

笔记来源:B站黑马程序员的视频

笔记借鉴:乐心湖

章节推荐:索引、Sql性能分析、Sql优化

推荐阅读:Mysql进阶篇

image-20220720203939094

简介

image-20220720200334761

数据模型

关系型数据库(RDBMS):建立在关系模型基础上,由多张相互连接的二维表组成的数据库。
而所谓二维表,指的是由行和列组成的表,可以通过一列关联另外一个表格中的某一列数据,如下图。

特点:

  • 使用表存储数据,格式统一,便于维护。
  • 使用 SQL 语言操作,标准统一,使用方便。

image-20220720200603604

常见的 MySQL、Oracle、DB2、SQLServer 这些都是属于关系型数据库,里面都是基于二维表存储数据的。

无论我们使用哪一个关系型数据库,最终在操作时都是使用 SQL 语言来进行统一操作,
因为我们接下来学习的 SQL 语言,是操作关系型数据库的统一标准。

image-20220720200622171

SQL基础

SQL

分类说明
DDL数据定义语言,用来定义数据库对象(数据库,表,字段)
DML数据操作语言,用来对数据库表中的数据进行增删改
DQL数据查询语言,用来查询数据库中表的记录
DCL数据控制语言,用来创建数据库用户、控制数据库的访问权限

DDL

数据库操作

查询所有数据库

SHOW DATABASES

使用某个数据库

USE 数据库名;

查询当前数据库

SELECT DATABASE();

创建数据库

UTF8 字符集长度为3字节,有些符号占4字节,所以创建数据库时推荐用 utf8mb4 字符集

CREATE DATABASE [ IF NOT EXISTS ] 数据库名 [ DEFAULT CHARSET 字符集] [COLLATE 排序规则 ];

删除数据库

DROP DATABASE [ IF EXISTS ] 数据库名;

数据表操作

创建表

最后一个字段后面是没有逗号的。

CREATE TABLE 表名(
    字段1 字段1类型 [COMMENT 字段1注释],
    字段2 字段2类型 [COMMENT 字段2注释],
    字段3 字段3类型 [COMMENT 字段3注释],
    ...
    字段n 字段n类型 [COMMENT 字段n注释]
)[ COMMENT 表注释 ];

查询表结构

DESC 表名;

查询当前数据库所有表,必须处在数据库中

SHOW TABLES;

查询某表的建表语句

SHOW CREATE TABLE 表名;

表中添加字段

ALTER TABLE 表名 ADD 字段名 类型(长度) [COMMENT 注释] [约束];
-- 例如
ALTER TABLE emp ADD nickname varchar(20) COMMENT '用户昵称';

修改数据类型

ALTER TABLE 表名 MODIFY 字段名 新数据类型(长度);
-- 例如
ALTER TABLE emp MODIFY nickname varchar(30);

修改字段名和字段类型

ALTER TABLE 表名 CHANGE 旧字段名 新字段名 类型(长度) [COMMENT 注释] [约束];
-- 例如
ALTER TABLE emp CHANGE nickname name varchar(40);

删除字段

ALTER TABLE 表名 DROP 字段名;
-- 例如
ALTER TABLE emp drop nickname;

修改表名

ALTER TABLE 表名 RENAME TO 新表名;
-- 例如
ALTER TABLE emp RENAME TO empNew;

删除表

DROP TABLE [IF EXISTS] 表名;
-- 例如
DROP TABLE [IF EXISTS] emp;

删除表,并重新创建该表

TRUNCATE TABLE 表名;
-- 例如
TRUNCATE TABLE emp;

DML

数据操作语言,用来对数据库表中的数据进行增删改

字符串和日期类型数据应该包含在引号中

插入的数据大小应该在字段的规定范围

指定字段添加数据

INSERT INTO 表名 (字段名1, 字段名2, ...) VALUES (值1, 值2, ...);

全部字段添加数据

INSERT INTO 表名 VALUES (值1, 值2, ...);

批量添加数据

--指定字段
INSERT INTO 表名 (字段名1, 字段名2, ...) VALUES (值1, 值2, ...), (值1, 值2, ...), (值1, 值2, ...);
--全部字段
INSERT INTO 表名 VALUES (值1, 值2, ...), (值1, 值2, ...), (值1, 值2, ...);

修改数据

UPDATE 表名 SET 字段名1 = 值1, 字段名2 = 值2, ... [ WHERE 条件 ];
-- 例如
UPDATE emp SET nickname = '乐心湖' WHERE id = 1;

删除数据

DELETE FROM 表名 [ WHERE 条件 ];

DQL

数据查询语言,用来查询数据库中表的记录

基础查询

SELECT
    字段列表
FROM
    表名字段
WHERE
    条件列表
GROUP BY
    分组字段列表
HAVING
    分组后的条件列表
ORDER BY
    排序字段列表
LIMIT
    分页参数

查询所有字段

SELECT * FROM 表名; 
-- 实际开发中尽量不要写 * 而是建议把每个字段都写出来
SELECT id,name,age... FROM emp;

查询结果字段带别名

SELECT 字段1 [ AS 别名1 ], 字段2 [ AS 别名2 ], 字段3 [ AS 别名3 ], ... FROM 表名;
SELECT 字段1 [ 别名1 ], 字段2 [ 别名2 ], 字段3 [ 别名3 ], ... FROM 表名;

去除重复记录

SELECT DISTINCT 字段列表 FROM 表名;

条件查询

SELECT 字段列表 FROM 表名 WHERE 条件列表;

条件列表

比较运算符功能
>大于
>=大于等于
<小于
<=小于等于
=等于
<> 或 !=不等于
BETWEEN … AND …在某个范围内(含最小、最大值)
IN(…)在in之后的列表中的值,多选一,或的意思
LIKE 占位符模糊匹配(_匹配单个字符,%匹配任意个字符)
IS NULL是NULL
逻辑运算符功能
AND 或 &&并且(多个条件同时成立)
OR 或 \\ 或者(多个条件任意一个成立)
NOT 或 !非,不是

聚合查询

将一列数据作为一个整体,进行纵向计算。直接作用于字段。

SELECT 聚合函数(字段列表) FROM 表名;

常见聚合函数如下,注意:所有 null 值不参与聚合运算。

函数功能
count统计数量
max最大值
min最小值
avg平均值
sum求和
-- 统计企业员工数量
select count(id) from emp;
-- 统计企业平均年龄
select avg(age) from emp;
-- 统计西安地区员工的年龄之和
select sum(age) from emp where workaddr = '西安';

分组查询

SELECT 字段列表 FROM 表名 [ WHERE 条件 ] GROUP BY 分组字段名 [ HAVING 分组后的过滤条件 ];

分组往往伴随着聚合

where 和 having 的区别:

  • 执行时机不同:where 是分组之前进行过滤,不满足 where 条件不参与分组;having 是分组后对结果进行过滤。
  • 判断条件不同:where 不能对聚合函数进行判断,而 having 可以。

注意:

  • 执行顺序:where > 聚合函数 > having
  • 分组之后,查询的字段一般为聚合函数和分组字段,查询其他字段无任何意义
-- 根据性别分组,统计男性和女性数量(只显示分组数量,不显示哪个是男哪个是女)
select count(*) from emp group by gender;
-- 根据性别分组,统计男性和女性数量
select gender, count(*) from emp group by gender;
-- 根据性别分组,统计男性和女性的平均年龄
select gender, avg(age) from emp group by gender;
-- 年龄小于45,并根据工作地址分组,获取员工数量
select workaddr, count(*) from emp where age < 45 group by workaddr;
-- 年龄小于45,并根据工作地址分组,获取员工数量大于等于3的工作地址
select workaddr, count(*) address_count from emp where age < 45 group by workaddr having address_count >= 3;

排序查询

如果是多字段排序,当第一个字段值相同时,才会根据第二个字段进行排序

SELECT 字段列表 FROM 表名 ORDER BY 字段1 排序方式1, 字段2 排序方式2;

排序方式

  • ASC:升序(默认)
  • DESC:降序
-- 根据年龄升序排序
select * from emp order by age ASC;
select * from emp order by age;
-- 根据年龄对公司的员工进行升序排序,年龄相同,再按照入职时间进行降序排序
select * from emp order by age ASC, entrydate DESC;

分页查询

SELECT 字段列表 FROM 表名 LIMIT 起始索引, 查询记录数;
  • 起始索引从0开始,所以这里有个公式,起始索引 = (查询页码 - 1) * 每页显示记录数
  • 分页查询是数据库的方言,不同数据库有不同实现,MySQL 是 LIMIT
  • 如果查询的是第一页数据,起始索引可以省略,直接简写 LIMIT 10
-- 查询第一页数据,展示10条
select * from emp limit 0, 10;
-- 查询第二页,每页展示10条
select * from emp limit 10, 10;

DQL 编写顺序:

SELECT -> FROM -> WHERE -> GROUP BY -> HAVING -> ORDER BY -> LIMIT

DQL 执行顺序:

FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT

image-20220720201011824

DCL

数据控制语言,用来创建数据库用户、控制数据库的访问权限

用户管理

查询用户

use mysql;
select * from user;

创建用户

CREATE USER '用户名'@'主机名' IDENTIFIED BY '密码';

修改用户密码

ALTER USER '用户名'@'主机名' IDENTIFIED WITH mysql_native_password BY '新密码';

删除用

DROP USER '用户名'@'主机名';

例子

-- 创建用户lxh,只能在当前主机localhost访问
create user 'lxh'@'localhost' identified by '123456';
-- 创建用户test,能在任意主机访问,使用 % 通配符号
create user 'lxh'@'%' identified by '123456';
create user 'lxh' identified by '123456';
-- 修改密码
alter user 'lxh'@'localhost' identified with mysql_native_password by '123';
-- 删除用户
drop user 'lxh'@'localhost';

权限管理

常见的权限如下,更具体需要百度。

权限说明
ALL, ALL PRIVILEGES所有权限
SELECT查询数据
INSERT插入数据
UPDATE修改数据
DELETE删除数据
ALTER修改表
DROP删除数据库/表/视图
CREATE创建数据库/表
-- 查询权限:
SHOW GRANTS FOR '用户名'@'主机名';

-- 授予权限:
GRANT 权限列表 ON 数据库名.表名 TO '用户名'@'主机名';

-- 撤销权限:
REVOKE 权限列表 ON 数据库名.表名 FROM '用户名'@'主机名';

-- 注意:
    -- 多个权限用逗号分隔
    -- 授权时,数据库名和表名可以用 * 进行通配,代表所有

函数

函数是指一段可以直接被另一段程序调用的程序或代码。

  1. 在企业的 OA 或其他的人力系统中,经常会提供的有这样一个功能,每一个员工登录上来之后都能 够看到当前员工入职的天数。 而在数据库中,存储的都是入职日期,如 2000-11-12,那如果快速计 算出天数呢?
  2. 在做报表这类的业务需求中,我们要展示出学员的分数等级分布。而在数据库中,存储的是学生的 分数值,如98/75,如何快速判定分数的等级呢?

以上这些需求都可以在 MySQL 的函数中得到方便解决。

字符串函数

常用的字符串函数

函数功能
CONCAT(s1, s2, …, sn)字符串拼接,将s1, s2, …, sn拼接成一个字符串
LOWER(str)将字符串全部转为小写
UPPER(str)将字符串全部转为大写
LPAD(str, n, pad)左填充,用字符串pad对str的左边进行填充,达到n个字符串长度
RPAD(str, n, pad)右填充,用字符串pad对str的右边进行填充,达到n个字符串长度
TRIM(str)去掉字符串头部和尾部的空格
SUBSTRING(str, start, len)返回从字符串str从start位置起的len个长度的字符串,起始索引为1

案例:由于业务需求变更,企业员工的工号,统一为5位数,目前不足5位数的全部在前面补0。比如: 1号员 工的工号应该为00001。

update emp set workno = LPAD(workno,5,'0');

数值函数

常用的数值函数

函数功能
CEIL(x)向上取整
FLOOR(x)向下取整
MOD(x, y)返回x/y的模
RAND()返回0~1内的随机数
ROUND(x, y)求参数x的四舍五入值,保留y位小数

案例:通过数据库的函数,生成一个六位数的随机验证码。

-- 通过rand()获取0~1,乘以1000000,通过四舍五入即可。如果未满6位,则补0
select lpad(round(rand()*1000000, 0), 6, '0');

日期函数

常用日期函数

函数功能
CURDATE()返回当前日期
CURTIME()返回当前时间
NOW()返回当前日期和时间
YEAR(date)获取指定date的年份
MONTH(date)获取指定date的月份
DAY(date)获取指定date的日期
DATE_ADD(date, INTERVAL expr type)返回一个日期/时间值加上一个时间间隔expr后的时间值
DATEDIFF(date1, date2)返回起始时间date1和结束时间date2之间的天数

案例:查询所有员工的入职天数,并根据入职时间倒叙排序

select name, datediff(curdate(), entrydate) as dates from emp order by dates desc;

流程函数

常用流程函数

函数功能
IF(value, t, f)如果value为true,则返回t,否则返回f
IFNULL(value1, value2)如果value1不为空,返回value1,否则返回value2
CASE WHEN [ val1 ] THEN [ res1 ] … ELSE [ default ] END如果val1为true,返回res1,… 否则返回default默认值
CASE [ expr ] WHEN [ val1 ] THEN [ res1 ] … ELSE [ default ] END如果expr的值等于val1,返回res1,… 否则返回default默认值
select
    name,
    if(age between 14 and 28, '青年','其他')
from emp;
select
    name,
    (case workaddress when '北京市' then '一线城市' when '上海市' then '一线城市' else '二线城市' end) as '工作地址'
from employee;

约束

约束是作用于表中字段上的,用于限制存储在表中的数据。目的是保证数据中数据的正确、有效性和完整性。

可以在创建表/修改表的时候添加约束。

常见约束:

约束描述关键字
非空约束限制该字段的数据不能为nullNOT NULL
唯一约束保证该字段的所有数据都是唯一、不重复的UNIQUE
主键约束主键是一行数据的唯一标识,要求非空且唯一PRIMARY KEY(自增:AUTO_INCREMENT)
默认约束保存数据时,如果未指定该字段的值,则采用默认值DEFAULT
检查约束(8.0.1版本后)保证字段值满足某一个条件CHECK
外键约束用来让两张图的数据之间建立连接,保证数据的一致性和完整性FOREIGN KEY

常用约束

image-20220720201156931

create table user(
    id int primary key auto_increment comment '主键id',
    name varchar(10) not null unique comment '姓名',
    age int check(age between 0 and 120) comment '年龄',
    status char(1) default '1' comment '状态',
    gender char(1) comment '性别'
) comment '用户表';

外键约束

外键约束是用来让两个表的数据之间建立连接,从而保证数据的一致性和完整性。

image-20220720201231583

-- 在创建表时添加外键
CREATE TABLE 表名(
    字段名 字段类型,
    ...
    [CONSTRAINT] [外键名称] FOREIGN KEY(外键字段名) REFERENCES 主表(主表列名)
);
-- 为表补上外键
ALTER TABLE 表名 ADD CONSTRAINT 外键名称 FOREIGN KEY(外键字段名) REFERENCES 主表(主表列名);
-- 删除外键
ALTER TABLE 表名 DROP FOREIGN KEY 外键名;

案例:为 emp 表补上外键,dept_id 关联 dep 中的 id

alter table emp add constraint fk_emp_dept_id foreign key dept_id references dep(id);

删除/更新行为

表添加了外键之后,再删除父表数据时产生的约束行为,我们就称为删除/更新行为。有以下常见的几种:

行为说明
NO ACTION当在父表中删除/更新对应记录时,首先检查该记录是否有对应外键,如果有则不允许删除/更新(与RESTRICT一致)
RESTRICT当在父表中删除/更新对应记录时,首先检查该记录是否有对应外键,如果有则不允许删除/更新(与NO ACTION一致)
CASCADE当在父表中删除/更新对应记录时,首先检查该记录是否有对应外键,如果有则也删除/更新外键在子表中的记录
SET NULL当在父表中删除/更新对应记录时,首先检查该记录是否有对应外键,如果有则设置子表中该外键值为null(要求该外键允许为null)
SET DEFAULT父表有变更时,子表将外键设为一个默认值(Innodb不支持)
ALTER TABLE 表名 ADD CONSTRAINT 外键名称 FOREIGN KEY (外键字段) REFERENCES 主表名(主表字段名) ON UPDATE 行为 ON DELETE 行为;
-- 其实就是在添加外键时的多一个定义
-- 例如:在父表中删除/更新对应记录时,首先检查该记录是否有对应外键,如果有则也删除/更新外键在子表中的记录
alter table emp add constraint fk_emp_dept_id foreign key dept_id references dep(id) on update cascade on delete cascade;

企业级项目开发时,不会用到外键!没法维护!了解即可!

多表查询

项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种联系,基本上分为三种:

多表关系

一对多

案例:部门与员工

关系:一个部门对应多个员工,一个员工对应一个部门

实现:在多的一方建立外键,指向一的一方的主键

image-20220720201408003

多对多

案例:学生与课程

关系:一个学生可以选多门课程,一门课程也可以供多个学生选修

实现:建立第三张中间表,中间表至少包含两个外键,分别关联两方主键

一对一

案例:用户与用户详情

关系:一对一关系,多用于单表拆分,将一张表的基础字段放在一张表中,其他详情字段放在另一张表中,以提升操作效率

实现:在任意一方加入外键,关联另外一方的主键,并且设置外键为唯一的(UNIQUE)

image-20220720201437184

多表查询

指的是从多表中查询出想要的数据。

笛卡尔积:笛卡尔乘积是指在数学中,两个集合 A 集合和 B 集合的所有组合情况。(在多表查询时,需要消除无效的笛
卡尔积)

例如:使用 select * from employee, dept; 查询出来的结果是两个表的乘积。

消除笛卡尔积select * from employee, dept where employee.dept = dept.id;

image-20220720201451067

内连接查询

内连接查询的是两张表交集的部分

image-20220720201509988

隐式内连接:
SELECT 字段列表 FROM 表1, 表2 WHERE 条件 ...;

显式内连接:
SELECT 字段列表 FROM 表1 [ INNER ] JOIN 表2 ON 连接条件 ...;

显式性能比隐式高

-- 查询每一个员工的姓名,及关联的部门的名称(隐式内连接查询)
select emp.name, dept.name from emp, dep where emp.dept_id = dept.id;
select e.name, d.name from emp e, dep d where e.dept_id = d.id;
-- 查询每一个员工的姓名,及关联的部门的名称(显式内连接)
select emp.name, dept.name from emp inner join dept on emp.dept_id = dept.id;
select e.name, d.name from emp e inner join dept d on e.dept_id = d.id;

外连接查询

-- 查询emp表中的所有数据和对应的部门信息(左外连接)
select e.*, d.* from emp e left join dept d on e.dept_id = d.id;
-- 查询dept表中的所有数据和对应的员工信息(右外连接)
select d.name, e.* from emp e right join dept d on e.dept_id = d.id;
-- 以上可以看到,左连接可以查询到没有dept的employee,右连接可以查询到没有employee的dept

自连接查询

自连接查询指的是于自身的连接查询,把自身当作另一个表,所以要求必须使用表别名自连接查询可以是内连接查询或者外连接查询。

-- 查询员工及其领导
select a.name '员工', b.name '领导' from emp a, emp b where a.managerid = b.id;
-- 查询所有员工emp及其领导的名字,如果员工没有领导,也需要查询出来
select a.*, b.name '领导' from emp a left join emp b on a.managerid = b.id;

联合查询union

联合查询就是把多次查询的结果合并,形成一个新的查询集。联合查询比使用or效率高,不会使索引失效。对于联合查询,多张表的列数必须保持一致,字段类型也必须保持一段。union all 会将全部的数据直接合并在一起,union 会对合并之后的数据去重。

SELECT 字段列表 FROM 表A ...
UNION [ALL]
SELECT 字段列表 FROM 表B ...
-- 将薪资低于5000的员工,和年龄大于50岁的员工全部查询出来.
select * from emp where salary < 5000
union
select * from emp where age > 50
-- 使用 UNION ALL 会有重复结果,UNION 则不会。

子查询

SQL 语句中嵌套 SELECT 语句,称谓嵌套查询,又称子查询。

SELECT * FROM t1 WHERE column1 = ( SELECT column1 FROM t2);

子查询外部的语句可以是 INSERT / UPDATE / DELETE / SELECT 的任何一个

根据子查询结果可以分为:

  • 标量子查询(子查询结果为单个值)
  • 列子查询(子查询结果为一列)
  • 行子查询(子查询结果为一行)
  • 表子查询(子查询结果为多行多列)

根据子查询位置可分为:

  • WHERE 之后
  • FROM 之后
  • SELECT 之后

标量子查询

子查询返回的结果是单个值(数字、字符串、日期等)。

常用操作符:- < > > >= < <=

-- 查询销售部所有员工
select id from dept where name = '销售部';
-- 根据销售部部门ID,查询员工信息
select * from emp where dept = 4;
-- 合并成标量子查询
select * from emp where dept = (select id from dept where name = '销售部');
-- 查询李白入职以后的新入职员工信息
select * from emp where entrydate > (select entrydate from employee where name = '李白');

列子查询

返回的结果是一列(可以是多行)。

常用操作符:

操作符描述
IN在指定的集合范围内,多选一
NOT IN不在指定的集合范围内
ANY子查询返回列表中,有任意一个满足即可
SOME与ANY等同,使用SOME的地方都可以使用ANY
ALL子查询返回列表的所有值都必须满足
-- 查询销售部和市场部的所有员工信息
select * from emp where dept_id in(select id from dept where name = '销售部' or name = '市场部');
-- 查询比财务部所有人工资都高的员工信息
select * from emp where salary > all(select salary from emp where dept_id = (select id from dept where name = '财务部'));
-- 查询比研发部任意一人工资高的员工信息
select * from emp where salary > any(select salary from emp where dept_id = (select id from dept where name = '研发部'));

行子查询

返回的结果是一行(可以是多列)。

常用操作符:=, <, >, IN, NOT IN

-- 查询与李白的薪资及直属领导相同的员工信息
select * from emp where (salary, manager) = (12500, 1);
select * from emp where (salary, manager) = (select salary, manager from emp where name = '李白');

表子查询

返回的结果是多行多列
常用操作符:IN

-- 查询与xxx1,xxx2的职位和薪资相同的员工
select * from emp where (job, salary) in (select job, salary from emp where name = 'xxx1' or name = 'xxx2');
-- 查询入职日期是2022-01-01之后的员工,及其部门信息
select e.*, d.* from (select * from emp where entrydate > '2022-01-01') as e left join dept as d on e.dept_id = d.id;

事务

事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求

这些操作要么同时成功,要么同时失败。

默认 MysQL 的事务是自动提交的,当执行一条 DML 语句,MySQL 会立即隐式地提交事务。

事务操作

事务演示如下,如果 2-3 步骤之间报错终端,那么张三就丢了 1000;而李四没收到 1000;

-- 1. 查询张三账户余额
select * from account where name = '张三';
-- 2. 将张三账户余额 -1000
update account set money = money - 1000 where name = '张三';
-- 3. 将李四账户余额 +1000
update account set money = money + 1000 where name = '李四';

因此我们需要把上述代码整合成一个事务,完全执行后才提交。

-- 查看事务提交方式
SELECT @@AUTOCOMMIT;
-- 设置事务提交方式,1 为自动提交,0 为手动提交,该设置只对当前会话有效
SET @@AUTOCOMMIT = 0;
-- 提交事务
COMMIT;
-- 回滚事务
ROLLBACK;

第二种方式

-- 开启事务:
START TRANSACTION 或 BEGIN TRANSACTION;
-- 提交事务:
COMMIT;
-- 回滚事务:
ROLLBACK;

调整事务之后,重新运行 SQL

-- 1. 查询张三账户余额
select * from account where name = '张三';
-- 2. 将张三账户余额 -1000
update account set money = money - 1000 where name = '张三';
-- 3. 将李四账户余额 +1000
update account set money = money + 1000 where name = '李四';
commit;

事务ACID

进阶篇中有原理的介绍

事物的四大特性 ACID

  • 原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败。
  • 一致性(Consistency):事务完成时,必须使所有数据都保持一致状态。
  • 隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立环境下运行。
  • 持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。

image-20220720201657978

并发事务问题

问题描述
脏读一个事务读到另一个事务还没提交的数据
不可重复读一个事务先后读取同一条记录,但两次读取的数据不同
幻读一个事务按照条件查询数据时,没有对应的数据行,但是再插入数据时,又发现这行数据已经存在

脏读

如下图,事务 A 更新 1,但还未提交,此时被事务 B 查去了,这就导致可能事务 A 最终决定不提交,但是事务 B 拿出来后当真了,所以这种现象叫做脏读。

image-20220720201709428

不可重复读

如下图,事务 A 查询第一次后,事务 B 更新了这条数据,事务 A 查询第二次时发现跟第一次查询的结果不一样,这种现象叫做不可重复读。

image-20220720201722950

幻读

幻读是在解决[不可重复读]的基础上产生的新问题,如下图,事务 A 读取 id 为 1 的数据为空,事务 B 插入 id 为 1 的数据,之后事务 A 想要插入这条数据发现插入不了(比如被主键约束了),然后事务 A 重新查询还是找不到 id 为 1 的数据(因为我们解决了[不可重复读],所以查询出来的结果跟第一次查是一致的)。

image-20220720201736283

事务隔离级别

MySQL 默认的事务隔离级别是 Repeatable Read

Oracle 默认的事务隔离级别是 Read committed

隔离级别脏读不可重复读幻读
Read uncommitted
Read committed×
Repeatable Read(默认)××
Serializable×××

√ 表示在当前隔离级别下该问题会出现,

Serializable 性能最低;Read uncommitted 性能最高,数据安全性最差。

-- 查看事务隔离级别:
SELECT @@TRANSACTION_ISOLATION;
-- 设置事务隔离级别:
SET [ SESSION | GLOBAL ] TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE };
-- SESSION 是会话级别,表示只针对当前会话有效
-- GLOBAL 表示对所有会话有效

存储引擎

MySQL体系结构

image-20220720201843459

连接层

最上层是一些客户端和链接服务,包含本地 sock 通信和大多数基于客户端/服务端工具实现的类似于 TCP/IP 的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全接入的客户端提供线程。同样在该层上可以实现基于 SSL 的安全链接。服务器也会为安全接入的每个客户端验证它所具有的操作权限。

服务层

第二层架构主要完成大多数的核心服务功能,如 SQL 接口,并完成缓存的查询,SQL 的分析和优化,部分内置函数的执行。所有跨存储引擎的功能也在这一层实现,如过程、函数等。在该层,服务器会解析查询并创建相应的内部解析树,并对其完成相应的优化如确定表的查询的顺序,是否利用索引等, 最后生成相应的执行操作。如果是 select 语句,服务器还会查询内部的缓存,如果缓存空间足够大, 这样在解决大量读操作的环境中能够很好的提升系统的性能。

引擎层

存储引擎层,存储引擎真正的负责了 MySQL 中数据的存储和提取,服务器通过 API 和存储引擎进行通信。不同的存储引擎具有不同的功能,这样我们可以根据自己的需要,来选取合适的存储引擎。数据库中的索引是在存储引擎层实现的。

存储层

数据存储层,主要是将数据(redolog、undolog、数据、索引、二进制日志、错误日志、查询日志、慢查询日志等)存储在文件系统之上,并完成与存储引擎的交互。

三种存储引擎

存储引擎是 MySQL 数据库的核心,我们需要在合适的场景选择合适的存储引擎。接下来就来介绍一下存储引擎。存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可被称为表类型。我们可以在创建表的时候,来指定选择的存储引擎,如果没有指定将自动选择默认的存储引擎。

image-20220720201908544

因此在建表时指定存储引擎的 SQL 如下:

CREATE TABLE 表名(
    字段1 字段1类型 [ COMMENT 字段1注释 ] ,
    ......
    字段n 字段n类型 [COMMENT 字段n注释 ]
) ENGINE = INNODB [ COMMENT 表注释 ] ;

InnoDB

InnoDB 是一种兼顾高可靠性和高性能的通用存储引擎,在 MySQL 5.5 之后,InnoDB 是 MySQL 默认的存储引擎。

进阶篇中有更详细的介绍

特点

  • DML 操作遵循 ACID 模型,支持事务
  • 行级锁,提高并发访问性能;
  • 支持外键 FOREIGN KEY 约束,保证数据的完整性和正确性;

文件

  • xxx.ibd: xxx代表的是表名,InnoDB 引擎的每张表都会对应这样一个表空间文件,存储该表的表结构(frm、sdi)、数据和索引。
  • 参数:innodb_file_per_table,决定多张表共享一个表空间还是每张表对应一个表空间文件,MySQL 8.0 版本默认打开,代表每张表对应一个表空间文件。
  • 从 idb 文件提取表结构数据:ibd2sdi xxx.ibd

逻辑存储结构

  • Tablespace 表空间:InnoDB 存储引擎逻辑结构的最高层,ibd 文件其实就是表空间文件,在表空间中可以包含多个 Segment 段。
  • Segment 段:表空间是由各个段组成的, 常见的段有数据段、索引段、回滚段等。InnoDB中对于段的管理,都是引擎自身完成,不需要人为对其控制,一个段中包含多个 Extent 区。
  • Extent 区:区是表空间的单元结构,每个区的大小为 1 M。 默认情况下, InnoDB 存储引擎页大小为 16K, 即一个区中一共有 64 个连续的 Page 页。
  • Page 页:页是组成「区」的最小单元,页也是 InnoDB 存储引擎磁盘管理的最小单元,每个页的大小默 认为 16KB。为了保证页的连续性,InnoDB 存储引擎每次从磁盘申请 4-5 个区。
  • Row 行:InnoDB 存储引擎是面向行的,也就是说数据是按行进行存放的,在每一行中除了定义表时所指定的字段以外,还包含两个隐藏字段。

image-20220720202006150

MyISAM

MyISAM 是 MySQL 早期的默认存储引擎。

特点

  • 不支持事务,不支持外键
  • 支持表锁,不支持行锁
  • 访问速度快

文件

  • xxx.sdi:存储表结构信息
  • xxx.MYD:存储数据
  • xxx.MYI:存储索引

Memory

Memory 引擎的表数据是存储在内存中的,受硬件问题、断电问题的影响,只能将这些表作为临时表或缓存使用。

特点

  • 存放在内存中,速度快
  • hash索引(默认)

文件

  • xxx.sdi:存储表结构信息

存储引擎对比

特点InnoDBMyISAMMemory
存储限制64TB
事务安全支持--
锁机制行锁表锁表锁
B+tree索引支持支持支持
Hash索引--支持
全文索引支持(5.6版本之后)支持-
空间使用N/A
内存使用中等
批量插入速度
支持外键支持--

InnoDB 和 MyISAM 存储引擎的主要区别:

  1. InnoDB 支持事物,锁是行级锁,支持外键
  2. MyISAM 不支持事物,锁是表级锁,不支持外键
  3. 另外,InnoDB 占用内存空间大,插入速度低;MyISAM 占用内存空间小,插入速度高

存储引擎的选择

在选择存储引擎时,应该根据应用系统的特点选择合适的存储引擎。对于复杂的应用系统,还可以根据实际情况选择多种存储引擎进行组合。

  • InnoDB:是 MySQL 的默认存储引擎,支持事务、外键。如果应用对事务的完整性有比较高的要求,在并发条件下要求数据的一致性,数据操作除了插入和查询之外,还包含很多的更新、删除操作,那么 InnoDB 存储引擎是比较合适的选择。
  • MyISAM:如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性、并发性要求不是很高,那么选择这个存储引擎是非常合适的。
  • Memory:将所有数据保存在内存中,访问速度快,通常用于临时表及缓存。MEMORY 的缺陷就是对表的大小有限制,太大的表无法缓存在内存中,而且无法保障数据的安全性。

对于 MySQL 常用的存储引擎还是 InnoDB,因此创建表时不需要我们自定义,默认就是。

对于 MyISAM,市面上有了 MongoDB;对于 Memory,市面上有了 Redis。

索引

image-20220720202125124

Mysql最最重要的部分了吧!

索引概述

索引(index)是帮助 MySQL 高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。

优点缺点
提高数据检索效率,降低数据库的 IO 成本索引列也是要占用空间
通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗索引大大提高了查询效率,但降低了更新的速度,比如 INSERT、UPDATE、DELETE

索引结构

image-20220720202200719

索引结构描述
B+Tree最常见的索引类型,大部分引擎都支持 B+Tree 索引
Hash底层数据结构是用哈希表实现,只有精确匹配索引列的查询才有效,不支持范围查询
R-Tree(空间索引)空间索引是 MyISAM 引擎的一个特殊索引类型,主要用于地理空间数据类型,通常使用较少
Full-Text(全文索引)是一种通过建立倒排索引,快速匹配文档的方式,类似于 Lucene、Solr、ES
索引InnoDBMyISAMMemory
B+Tree 索引支持支持支持
Hash 索引不支持不支持支持
R-Tree 索引不支持支持不支持
Full-text 索引5.6版本后支持支持不支持

我们平常所说的索引,如果没有特别指明,都是指 B+Tree 结构组织的索引。

B-Tree

B-Tree 是一种多叉路衡查找树,相对于二叉树,B-Tree 每个节点可以有多个分支,即多叉。

以一颗最大度数(max-degree)为 5 的 B-Tree 为例,那这个 B-Tree 每个节点最多存储 4 个 key,一共 5 个指针。

动画演示地址:https://www.cs.usfca.edu/~galles/visualization/BTree.html

image-20220720202236990

核心:4 个 key 后再添加,就会从中间拿出一个 key,向上裂变。若是双,中间两个拿左边那个。

B+Tree

B+Tree 是 B-Tree 的变种,

我们以一颗最大度数(max-degree)为 4 的 B+Tree 为例,来看一下其结构示意图:

image-20220720202256705

我们可以看到两部分:

  • 绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
  • 红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据。

动画演示地址:https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html

核心:向上裂变时,保留自己在叶子结点中,这样可以直接在叶子结点拿数据。

MySQL 索引数据结构对经典的 B+Tree 进行了优化。在原 B+Tree 的基础上,增加一个指向相邻叶子节点的链表指针,就形成了带有顺序指针的 B+Tree,提高区间访问的性能,利于排序。

image-20220720202331152

Hash

MySQL 中除了支持 B+Tree 索引,还支持一种索引类型,Hash 索引。

哈希索引就是采用一定的 hash 算法,将键值换算成新的 hash 值,映射到对应的槽位上,然后存储在 hash 表中。 如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了 hash 冲突(也称为hash碰撞),可以通过链表来解决。

image-20220720202345789

  • A. Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,< ,...)
  • B. 无法利用索引完成排序操作
  • C. 查询效率高,通常(不存在 hash 冲突的情况)只需要一次检索就可以了,效率通常要高于 B+tree 索引

在MySQL中,支持 hash 索引的是 Memory 存储引擎。

而 InnoDB 中具有自适应 hash 功能,hash 索引是 InnoDB 存储引擎根据B+Tree 索引在指定条件下自动构建的。

面试题:为什么 InnoDB 存储引擎选择使用 B+tree 索引结构?

  1. 相对于二叉树,层级更少,搜索效率高
  2. 对于 B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针也跟着减少,要同样保存大量数据,只能增加树的高度,导致性能降低
  3. 相对于 Hash 索引,B+Tree 支持范围匹配及排序操作

索引分类

分类含义特点关键字
主键索引针对于表中主键创建的索引默认自动创建,只能有一个PRIMARY
唯一索引避免同一个表中某数据列中的值重复可以有多个UNIQUE
常规索引快速定位特定数据可以有多个
全文索引全文索引查找的是文本中的关键词,而不是比较索引中的值可以有多个FULLTEXT

在 InnoDB 存储引擎中,根据索引的存储形式,又可以分为以下两种

分类含义特点
聚集索引(Clustered Index)将数据存储与索引放一块,索引结构的叶子节点保存了行数据必须有,而且只有一个
二级索引(Secondary Index)将数据与索引分开存储,索引结构的叶子节点关联的是对应的主键可以存在多个

上面说了,聚集索引必须要有,那么聚集索引该是啥呢,规则如下

  1. 如果存在主键,主键索引就是聚集索引
  2. 如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引
  3. 如果表没有主键或没有合适的唯一索引,则 InnoDB 会自动生成一个 rowid 作为隐藏的聚集索引

找到合适的聚集索引后,剩下的索引都为二级索引。如下图,聚集索引的叶子节点下挂的是这一行的数据。而二级索引的叶子节点下挂的是该字段值对应的主键值。

image-20220720202509547

当我们执行如下的 SQL 语句时,具体的查找过程如下图。

image-20220720202527093

  1. 由于是根据 name 字段进行查询,所以先根据 name='Arm' 到 name 字段的二级索引中进行匹配查找。
  2. 在二级索引中只能查找到 Arm 对应的主键值 10。
  3. 由于查询返回的数据是 *,所以此时,还需要根据主键值 10,到聚集索引中查找 10 对应的记录,最终找到 10 对应的行 row,这一步称作回表查询
  4. 最终拿到这一行的数据,直接返回。

回表查询:先到二级索引中查找数据,找到主键值,然后再到聚集索引中根据主键值,获取数据的方式,就称之为回表查询。

面试题:以下两条SQL语句,那个执行效率高?为什么?

A. select * from user where id = 10;

B. select * from user where name = 'Arm' ;

备注:id 为主键,name 字段有索引;

答:A 语句的执行性能要高于B 语句。 因为 A 语句直接走聚集索引,直接返回数据。 而 B 语句需要先查询 name 字段的二级索引,然后再查询聚集索引,也就是需要进行回表查询

索引语法

创建索引

CREATE [ UNIQUE | FULLTEXT ] INDEX 索引名 ON 表名 (字段名, ...);

则创建的是常规索引

查看索引

SHOW INDEX FROM 表名;

删除索引

DROP INDEX 索引名 ON 表名;

索引规则

验证索引效率

现有一张表 1000w 的数据,其中 id 为主键,有主键索引,而其他字段是没有建立索引的。我们先来查询其中的一条记录,看看里面的字段情况,执行 SQL

select * from tb_sku where id = 1\G;

image-20220720202625541

可以看到即使有 1000w 的数据,根据 id 进行数据查询,性能依然很快,因为 id 是有索引的。我们再根据 sn 字段进行查询,执行 SQL

SELECT * FROM tb_sku WHERE sn = '100000003145001';

image-20220720202641807

我们可以看到根据 sn 字段进行查询,查询返回了一条数据,结果耗时 20.78sec,就是因为 sn 没有索引,而造成查询效率很低。那么我们可以针对于 sn 字段,建立一个索引,建立了索引之后,我们再次根据 sn 进行查询。

create index idx_sku_sn on tb_sku(sn) ;
SELECT * FROM tb_sku WHERE sn = '100000003145001';

我们明显会看到,sn 字段建立了索引之后,查询性能大大提升。建立索引前后,查询耗时都不是一个数量级的。

最左前缀法则

如果索引了多列(联合索引),要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始, 并且不跳过索引中的列。如果跳跃某一列,索引将会部分失效(即后面的字段索引失效

例如:现有一张表中,其中有一个联合索引,这个联合索引涉及到三个字段,顺序分别为:profession, age,status。对于最左前缀法则指的是,查询时,最左边的列,也就是 profession 必须存在,否则索引全部失效。 而且中间不能跳过某一列,比如 age,否则该列后面的字段索引将失效。

-- 创建联合索引
create index idx_pro_age_status on tb_user(profession, age, status);
-- 索引失效,联合索引最左边的列profession不存在
explain select * from tb_user where status = '0';
-- 索引失效,联合索引最左边的列profession不存在
explain select * from tb_user where age = 31 and status = '0';
-- 索引生效
explain select * from tb_user where profession = '软件工程';
-- 索引失效
explain select * from tb_user where profession = '软件工程' and age = 31;
-- 部分索引失效,profession有效,status无效,因为跳过了左边的age,不满足最左前缀法则
explain select * from tb_user where profession = '软件工程' and status = '0';
-- 索引生效,profession存在,age存在,status存在
explain select * from tb_user where age = 31 and status = '0' and profession = '软件工程'; 

注意:最左前缀法则中指的最左边的列,是指在查询时,联合索引的最左边的字段(按照顺序下来的字段)存在即可,与我们编写 SQL 时的先后顺序无关。

范围查询

联合索引中,出现范围查询(<,>),范围查询右侧的列索引失效。可以用 >=,<= 来规避索引失效问题。也建议把(<,>)写在最后,避免索引失效问题。

-- status不走索引
explain select * from tb_user where profession = '软件工程' and age > 30 and status = '0';
-- status依旧不走索引,因为按照联合索引的最左前缀法则,age先走索引,此时>导致后面的索引失效
explain select * from tb_user where profession = '软件工程' and status = '0' and age > 30;
-- 索引都生效
explain select * from tb_user where profession = '软件工程' and age >= 30 and status = '0';
-- 索引都生效
explain select * from tb_user where profession = '软件工程' and status = '0' and age >= 30;

索引列运算

在索引列上进行运算操作,索引将失效。

-- 索引失效。
explain select * from tb_user where substring(phone, 10, 2) = '15';

字符串索引

字符串类型字段使用时,不加引号,索引将失效。

-- 此处phone是字符串类型,由于值没有加引号导致索引失效
explain select * from tb_user where phone = 17799990015;

模糊查询

模糊查询中,如果仅仅是尾部模糊匹配,索引不会失效;如果是头部模糊匹配,索引失效;前后都有模糊匹配,也会失效。

-- 索引有效
explain select * from tb_user where profession like '软件%';
-- 索引无效
explain select * from tb_user where profession like '%工程';
-- 索引无效
explain select * from tb_user where profession like '%工%';

or连接

用 or 分割开的条件,如果 or 其中一个条件的列没有索引,那么涉及的索引都不会被用到。

-- 由于age没有索引,所以即使id、phone有索引,索引也会失效。所以需要针对于age也要建立索引。
explain select * from tb_user where id = 10 or age = 23;
-- 索引失效
explain select * from tb_user where phone = '17799990017' or age = 23;

数据分布影响

如果 MySQL 评估使用索引比全表更慢,则不使用索引。

-- 对于表中phone大部分数据都>=17799990005,MySQL认为不走索引直接走全表扫描更快
select * from tb_user where phone >= '17799990005';
-- 对于表中phone仅部分数据>=17799990015,MySQL认为走索引更快
select * from tb_user where phone >= '17799990015'

SQL提示

现有一张表中,其中有一个联合索引,这个联合索引涉及到三个字段,顺序分别为:profession, age,status。以及一个 profession 的普通索引。当执行下面的 SQL 语句,MySQL 会自动帮我们选择一个索引。

explain select * from tb_user where profession = '软件工程';

image-20220720202715738

如上图,我们可以看到,possible_keys 中 idx_user_pro_age_sta,idx_user_pro 这两个索引都可能用到,最终 MySQL 选择了idx_user_pro_age_sta 索引。我们也可以是使用 SQL 提示来指定使用哪个索引。

SQL 提示,是优化数据库的一个重要手段,就是在 SQL 语句中加入一些人为的提示来达到优化操作的目的。

1、use index:建议 MySQL 使用哪一个索引完成此次查询(仅仅是建议,MySQL 内部还会再次进行评估)

-- 建议MySQL使用idx_user_pro索引
explain select * from tb_user use index(idx_user_pro) where profession = '软件工程';

2、ignore index:忽略指定的索引

-- 忽略idx_user_pro索引
explain select * from tb_user ignore index(idx_user_pro) where profession = '软件工程';

3、force index:强制使用索引

-- 强制使用idx_user_pro索引
explain select * from tb_user force index(idx_user_pro) where profession = '软件工程';

覆盖索引

覆盖索引是指查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到,不需要再去回表查询。因此我们建议:尽量使用覆盖索引,减少 select *

执行下面的 SQL 语句

explain select id, profession from tb_user where profession = '软件工程' and age = 31 and status = '0' ;
explain select id,profession,age, status from tb_user where profession = '软件工程' and age = 31 and status = '0' ;
explain select id,profession,age, status, name from tb_user where profession = '软件工程' and age = 31 and status = '0' ;
explain select * from tb_user where profession = '软件工程' and age = 31 and status= '0';

我们重点关注最后一列 Extra

image-20220720202749067

从上述的执行计划我们可以看到,这四条 SQL 语句的执行计划前面所有的指标都是一样的,看不出来任何差异。但是此时,我们主要关注的是后面的 Extra,前面两条 SQL 的结果为Using where; Using Index;,而后面两条 SQL 的结果为Using index condition

Extra含义
Using where; Using Index查找使用了索引,但是需要的数据都在索引列中能找到,所以不需要回表查询数据
Using index condition查找使用了索引,但是需要回表查询数据

在 tb_user 表中有一个联合索引 idx_user_pro_age_sta,该索引关联了三个字段 profession、age、status,而这个索引也是一个二级索引,叶子节点下面挂的是这一行的主键 id。当我们查询返回的数据在 id、profession、age、status 之中,则直接走二级索引直接返回数据了。如果要返回的列不在这几个字段里面,就需要拿到主键 id,再去扫描聚集索引,再获取额外的数据,这个过程就是回表。 而我们如果一直使用 select * 查询返回所有字段值,很容易就会造成回表查询(除非是根据主键查询,此时只会扫描聚集索引)

思考题:一张表,有四个字段(id, username, password, status),由于数据量大, 需要对以下 SQL 语句进行优化,,该如何进行才是最优方案:

select id, username, password from tb_user where username = 'xn2001';

答:针对于 username,password 建立联合索引,这样 username 索引满足最左前缀法则,索引有效;另外这是一个联合索引,所查的字段都在二级索引(辅助索引)中,不需要回表查询。

create index idx_user_name_pass on tb_user(username, password);

前缀索引

当字段类型为字符串(varchar,text,longtext 等)时,有时候需要索引很长的字符串,这会让索引变得很大,在查询时浪费大量的磁盘 IO, 影响查询效率。此时可以只将字符串的一部分前缀建立索引,这样可以大大节约索引空间,从而提高索引效率。

create index 索引名 on 表名(字段名(长度));

例如,为 tb_user 表的 email 字段建立长度为 5 的前缀索引。

create index idx_email_5 on tb_user(email(5));

前缀长度可以根据索引的选择性来决定,而选择性是指不重复的索引值(基数)和数据表的记录总数的比值, 索引选择性越高则查询效率越高, 唯一索引的选择性是 1,这是最好的索引选择性,性能也是最好的。

-- email一般都是唯一的,所以这里结果自然是1
select count(distinct email) / count(*) from tb_user ;
-- 但是假设email很长,我们去截取email,可以测试出字符1-6、1-7、1-8的选择性都是一样的,我们自然只需要截取1-6建立前缀索引,这样省空间
select count(distinct substring(email,1,5)) / count(*) from tb_user ;

image-20220720202811235

单列索引与联合索引

单列索引:即一个索引只包含单个列

联合索引:即一个索引包含了多个列

一张表中有 phone、name 索引,都是单列索引,当执行 SQL 语句时,MySQL 只会选择一个索引,只能走一个字段的索引,此时是需要回表查询的。而创建一个 phone 和 name 字段的联合索引来查询一下执行计划,则走了联合索引,而在联合索引中包含 phone、name的信息,在叶子节点下挂的是对应的主键 id,所以查询是无需回表查询的。

在业务场景中,如果存在多个查询条件,考虑针对于查询字段建立索引时,建议建立联合索引, 而非单列索引。

image-20220720202849360

索引设计原则

1).针对于数据量较大,且查询比较频繁的表建立索引。

2). 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引。 多个字段条件尽量使用联合索引。

3). 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高。

4). 如果是字符串类型的字段,字段的长度较长,可以针对于字段的特点,建立前缀索引。

5). 尽量使用联合索引,减少单列索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间, 避免回表,提高查询效率。

6). 要控制索引的数量,索引并不是多多益善,索引越多,维护索引结构的代价也就越大,会影响增删改的效率。

7). 如果索引列不能存储 NULL 值,请在创建表时使用 NOT NULL 约束它。当优化器知道每列是否包含 NULL 值时,它可以更好地确定哪个索引最有效地用于查询。

SQL性能分析

SQL执行频率

MySQL 客户端连接成功后,通过 show [session|global] status 命令可以提供服务器状态信息。

通过如下指令,可以查看当前数据库的 INSERT、UPDATE、DELETE、SELECT 的访问频次

SHOW GLOBAL STATUS LIKE 'Com_______';

可以得知该表是增删改为主,还是查询为主。

慢查询日志

慢查询日志记录了所有执行时间超过指定参数(long_query_time,单位:秒,默认 10s)的所有SQL语句的日志。

查看慢查询日志开关状态:

show variables like 'slow_query_log';

MySQL 的慢查询日志默认没有开启,需要在 MySQL 的配置文件(/etc/my.cnf)中配置如下信息

# 开启慢查询日志开关
slow_query_log=1
# 设置慢查询日志的时间为2s,SQL语句执行时间超过2s,就会视为慢查询,记录慢查询日志
long_query_time=2

重启 MySQL 服务,日志文件位置:/var/lib/mysql/localhost-slow.log

通过慢查询日志,就可以定位出执行效率比较低的 SQL,从而有针对性的进行优化。

profile详情

profile 能在做 SQL 优化时帮我们了解时间都耗费在哪里。查看当前 MySQL 是否支持 profile 操作

SELECT @@have_profiling;  #显示yes代表支持

image-20220720202916595

profiling 默认关闭,可以通过 set 语句在 session/global 级别开启 profiling:

SET profiling = 1;

查看所有语句的耗时

show profiles;

查看指定 query_id 的 SQL 语句各个阶段的耗时

show profile for query query_id;

查看指定 query_id 的 SQL 语句 CPU 的使用情况

show profile cpu for query query_id;

explain执行计划

EXPLAIN 或者 DESC 命令获取 MySQL 如何执行 SELECT 语句的信息,包括在 SELECT 语句执行过程中表如何连接和连接的顺序。

image-20220720202936279

EXPLAIN 各字段含义:

id:select 查询的序列号,表示查询中执行 select 子句或者操作表的顺序(id 相同,执行顺序从上到下;id 不同,值越大越先执行)

select_type:表示 SELECT 的类型,常见取值有 SIMPLE(简单表,即不适用表连接或者子查询)、PRIMARY(主查询,即外层的查询)、UNION(UNION中的第二个或者后面的查询语句)、SUBQUERY(SELECT/WHERE 之后包含子查询)等

type:表示连接类型,性能由好到差的连接类型为 NULL、system、const、eq_ref、ref、range、index、all

  • NULL 在实际业务中一般不可能达到,指的是不查询任何表。
  • system 一般是访问系统表。
  • const 一般访问主键、唯一索引。
  • ref 一般访问非唯一索引。

possible_key:可能应用在这张表上的索引,一个或多个

Key:实际使用的索引,如果为 NULL,则没有使用索引

Key_len:表示索引中使用的字节数,该值为索引字段最大可能长度,并非实际使用长度,在不损失精确性的前提下,长度越短越好

rows:MySQL 认为必须要执行的行数,在 InnoDB 引擎的表中,是一个估计值,可能并不总是准确的

filtered:表示返回结果的行数占需读取行数的百分比,filtered 的值越大越好

Extra:在覆盖索引中讲

SQL优化

插入数据

普通insert

如果我们需要一次性往数据库表中插入多条记录,可以从以下三个方面进行优化。

--例如
insert into tb_test values(1,'tom');
insert into tb_test values(2,'cat');
insert into tb_test values(3,'jerry');

1.批量插入数据

insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');

2.手动控制事物

start transaction;
insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');
insert into tb_test values(4,'Tom'),(5,'Cat'),(6,'Jerry');
insert into tb_test values(7,'Tom'),(8,'Cat'),(9,'Jerry');
commit;

3.主键顺序插入,性能要高于乱序插入

使用主键乱序插入,主键 id 这样:8 1 9 21 88 2 4 15 89 5 7 3

使用主键顺序插入,主键 id 这样:1 2 3 4 5 7 8 9 15 21 88 89

大批量插入数据

如果一次性需要插入大批量数据,比如几百万的记录,使用 insert 语句插入性能较低,此时可以使 用MySQL 提供的 load 指令进行插入。可以执行如下指令,将数据脚本文件中的数据加载到表结构中

-- 客户端连接服务端时,加上参数 -–local-infile
mysql –-local-infile -u root -p
-- 设置全局参数local_infile为1,开启从本地加载文件导入数据的开关
set global local_infile = 1;
-- 执行load指令将准备好的数据,加载到表结构中
-- fields terminated by ',' 每个字段使用「,」分割
-- lines terminated by '\n' 每一行数据使用「换行」分割
load data local infile '/root/sql1.log' into table tb_user fields terminated by ',' lines terminated by '\n';

image-20220720203021771

主键优化

在上面我们提到,主键顺序插入的性能是要高于乱序插入的。

数据组织方式

在 InnoDB 存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表(index organized table IOT)。

image-20220720203052658

在 InnoDB 引擎中,数据行是记录在逻辑结构 page 页中的,而每一个页的大小是固定的,默认 16K。 那也就意味着,一个页中所存储的行也是有限的,如果插入的数据行 row 在该页存储不下,将会存储到下一个页中,页与页之间会通过指针连接。

image-20220720203104510

页分裂

主键顺序插入效果

1.从磁盘中申请 page, 主键顺序插入

image-20220720203116737

2.第一个页没有满,继续往第一页插入

image-20220720203128662

3.当第一个也写满之后,再写入第二个页,页与页之间会通过指针连接

image-20220720203141825

4.当第二页写满了,再往第三页写入

image-20220720203153551

主键乱序插入效果

1.加入1#,2# 页都已经写满了,存放了如图所示的数据

image-20220720203258474

2.此时再插入 id 为 50 的记录,50 并不是直接写入新的页,因为索引结构的叶子节点是有序的,因此插入的时候是插入在 47 后。

image-20220720203315044

3.此时 47 所在的 1# 页已经写满了,那么会开辟一个新的页 3#

image-20220720203326755

4.不会直接将 50 存入 3# 页,而是会将 1# 页后一半的数据移动到 3# 页,然后在 3# 页,插入 50

image-20220720203342661

移动数据,并插入 id 为 50 的数据之后,那么此时这三个页之间的数据顺序是有问题的。 1# 的下一个页应该是 3#, 3# 的下一个页是2#,所以需要重新设置链表指针。

image-20220720203355581

我们把上述的这种现象,称之为 "页分裂",是比较耗费性能的操作。

页合并

目前表中已有数据的索引结构(叶子节点)如下

image-20220720203414787

当我们对已有数据进行删除时,实际上记录并没有被物理删除,只是记录被标记(flaged)为删除并且它的空间变得允许被其他记录声明使用。

image-20220720203426463

当页中删除的记录达到 MERGE_THRESHOLD(默认为页的 50%),InnoDB 会开始寻找最靠近的页(前或后)看看是否可以将两个页合并以优化空间使用。image-20220720203436988

删除数据,并将页合并之后,再次插入新的数据 20,则直接插入 3# 页

image-20220720203450755

这个里面所发生的合并页的这个现象,就称之为 "页合并"。

MERGE_THRESHOLD:合并页的阈值,可以自己设置,在创建表或者创建索引时指定。

索引设计原则

1.满足业务需求的情况下,尽量降低主键的长度。

2.插入数据时,尽量选择顺序插入,选择使用 AUTO_INCREMENT 自增主键。

3.尽量不要使用 UUID 做主键或者是其他自然主键,如身份证号。

4.业务操作时,避免对主键的修改。

ORDER BY优化

MySQL 的 order by 排序,有两种方式:

  1. Using filesort:通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区 sort buffer 中完成排序操作,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。
  2. Using index:通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。

对于以上的两种排序方式,Using index 的性能高,而 Using filesort 的性能低,我们在优化排序操作时,尽量要优化为 Using index

-- 没有索引,Using filesort
explain select id,age,phone from tb_user order by age, phone;
-- 创建联合索引
create index idx_user_age_phone_aa on tb_user(age, phone);
-- 走索引,Using index
explain select id,age,phone from tb_user order by age;
-- 走索引,Using index
explain select id,age,phone from tb_user order by age, phone;
-- Backward index scan反向扫描索引,依旧走索引
explain select id,age,phone from tb_user order by age desc, phone desc;
-- 出现 Using filesort,age走索引,phone不走索引,order by在满足最左前缀法则时有先后之后,由于我们的联合索引是age,phone;所以这里order by先遇到phone不走索引,遇到age才开始走索引。这里不理解的可以去上面看看最左前缀法则笔记
explain select id,age,phone from tb_user order by phone, age;
-- Using index; Using filesort,一个升序一个降序一个走索引一个不走。
explain select id,age,phone from tb_user order by age asc, phone desc;
-- MySQL8.0 支持创建联合索引并定义排序规则
create index idx_user_age_phone_ad on tb_user(age asc, phone desc);
-- 走索引,Using index
explain select id,age,phone from tb_user order by age asc, phone desc;

使用 show index from 表名 查看索引排序规则,默认是升序。

由上述的测试,我们得出 order by 优化原则如下

A. 根据排序字段建立合适的索引,多字段排序时,也遵循最左前缀法则。

B. 尽量使用覆盖索引;意思就是查询的字段就是索引字段。不要用 select *

C. 多字段排序, 一个升序一个降序,此时需要注意联合索引在创建时的规则(ASC / DESC)

D. 如果不可避免的出现 filesort,大数据量排序时,可以适当增大排序缓冲区大小 sort_buffer_size(默认 256k)

GROUP BY优化

首先我们看在没有索引的情况下,执行如下 SQL,查询执行计划。

explain select profession , count(*) from tb_user group by profession;

此时的 Extra 出现的是 Using temporary

image-20220720203556254

我们在针对于 profession,age,status 创建一个联合索引。

create index idx_user_pro_age_sta on tb_user(profession, age, status);

再执行最开始的 SQL

explain select profession, count(*) from tb_user group by profession;

此时的 Extra 出现的是 Using index,证明用到了索引。

我们再去分析下面的 SQL

-- 出现Using temporary,因为不满足最左前缀法则
explain select age, count(*) from tb_user GROUP BY age;
-- 索引生效,Using index
explain select age, count(*) from tb_user GROUP BY profession, age;
-- 索引生效,因为先走where中的profession再走group by中的age,满足最左前缀法则
explain select age, count(*) from tb_user WHERE profession = "软件工程" GROUP BY age;
-- 出现Using temporary,group by先对age分组再对profession分组,不满足最左前缀法则
explain select age, count(*) from tb_user GROUP BY age, profession;

所以,在分组操作中,我们需要通过以下两点进行优化,以提升性能

A. 在分组操作时,可以通过索引来提高效率。

B. 在分组操作时,索引的使用也是要满足最左前缀法则的。

LIMIT优化

一个常见又非常头疼的问题就是 LIMIT 2000000, 10,此时需要 MySQL 排序前 2000010 记录,仅仅返回 2000000 ~ 2000010 的记录,其他记录丢弃,查询排序的代价非常大。

优化思路: 一般分页查询时,通过创建「覆盖索引」能够比较好地提高性能,通过「覆盖索引」加「多表查询」形式进行优化。

select * from tb_sku a, (select id from tb_sku order by id limit 2000000,10) b where a.id = b.id;

COUNT优化

下面的 SQL 语句,如果数据量很大,在执行 count 操作时,是非常耗时的。

select count(*) from tb_user;
  1. MyISAM 引擎把一个表的总行数存在了磁盘上,因此执行 count(*) 可以直接返回这个数,效率很高;但是如果是带条件的 count,MyISAM 也很慢。
  2. InnoDB 引擎就麻烦了,它执行 count(*) 的时候,需要把数据一行一行地从引擎里面读出来,然后累积计数。

如果说要大幅度提升 InnoDB 表的 count 效率,主要的优化思路:自己计数,可以借助于 redis,在插入时我们手动 +1 维护总数。

count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是 NULL,累计值就加 1,否则不加,最后返回累计值。

count 用法含义
count(主键)InnoDB 引擎会遍历整张表,把每一行的主键 id 值都取出来,返回给服务层。服务层拿到主键后,直接按行进行累加(因为主键不可能为null)
count(字段)没有 not null 约束 : InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,服务层判断是否为 null,不为 null,计数累加;有 not null 约束:InnoDB 引擎会遍历整张表把每一行的字段值都取出来,返回给服务层,直接按行进行累加。
count(数字)InnoDB 引擎遍历整张表,但不取值。服务层对于返回的每一行,放一个数 1 进去,直接按行进行累加。
count(*)InnoDB 引擎并不会把全部字段取出来,而是专门做了优化,不取值,服务层直接按行进行累加。

按照效率排序的话,count(字段) < count(主键 id) < count(1) ≈ count(*),尽量使用 count(*)

UPDATE优化

我们需要注意一下 UPDATE 语句执行时的注意事项。

当我们在执行修改的 SQL 语句时,会锁定 id 为 1 这一行的数据,其他数据不会锁定,该操作事务提交之后,行锁释放。

update course set name = 'javaEE' where id = 1;

当我们在执行如下 SQL 时,把 name 为 PHP 改为 SpringBoot

update course set name = 'SpringBoot' where name = 'PHP'; 

此时由于 name 字段没有索引,InnoDB 会会从行锁升级为表锁 。

也就是说,InnoDB 的行锁是针对索引加的锁,如果 SQL 操作的字段没有索引,该操作会从行锁升级为表锁,导致整个表在别的线程下无法修改。因此我们在 UPDATE 操作时要注意避免行锁升级为表锁。

最后修改:2022 年 07 月 20 日 08 : 59 PM
赏杯咖啡喝 谢谢您~