From 3c4aed008c1d59585b3621e758c1f77aaba31651 Mon Sep 17 00:00:00 2001 From: CyC2018 <36260787+CyC2018@users.noreply.github.com> Date: Tue, 20 Feb 2018 19:06:59 +0800 Subject: [PATCH] Update MySQL.md --- notes/MySQL.md | 418 +++++++++++++++++++++++-------------------------- 1 file changed, 198 insertions(+), 220 deletions(-) diff --git a/notes/MySQL.md b/notes/MySQL.md index f0fe5704..e83bb6a0 100644 --- a/notes/MySQL.md +++ b/notes/MySQL.md @@ -1,249 +1,227 @@ -* [事务四大特性](#事务四大特性) - * [1. 原子性](#1-原子性) - * [2. 一致性](#2-一致性) - * [3. 隔离性](#3-隔离性) - * [4. 持久性](#4-持久性) -* [存储引擎](#存储引擎) +* [瀛樺偍寮曟搸](#瀛樺偍寮曟搸) * [1. InnoDB](#1-innodb) * [2. MyISAM](#2-myisam) - * [3. InnoDB 与 MyISAM 的比较](#3-innodb-与-myisam-的比较) -* [数据类型](#数据类型) - * [1. 整型](#1-整型) - * [2. 浮点数](#2-浮点数) - * [3. 字符串](#3-字符串) - * [4. 时间和日期](#4-时间和日期) -* [索引](#索引) - * [1. 索引分类](#1-索引分类) - * [1.1 B-Tree 索引](#11-b-tree-索引) - * [1.2 哈希索引](#12-哈希索引) - * [1.3. 空间索引数据(R-Tree)](#13-空间索引数据(r-tree)) - * [1.4 全文索引](#14-全文索引) - * [2. 索引的优点](#2-索引的优点) - * [3. 索引优化](#3-索引优化) - * [3.1 独立的列](#31-独立的列) - * [3.2 前缀索引](#32-前缀索引) - * [3.3 多列索引](#33-多列索引) - * [3.4 索引列的顺序](#34-索引列的顺序) - * [3.5 聚簇索引](#35-聚簇索引) - * [3.6 覆盖索引](#36-覆盖索引) - * [4. B-Tree 和 B+Tree 原理](#4-b-tree-和-b+tree-原理) + * [3. InnoDB 涓 MyISAM 鐨勬瘮杈僝(#3-innodb-涓-myisam-鐨勬瘮杈) +* [鏁版嵁绫诲瀷](#鏁版嵁绫诲瀷) + * [1. 鏁村瀷](#1-鏁村瀷) + * [2. 娴偣鏁癩(#2-娴偣鏁) + * [3. 瀛楃涓瞉(#3-瀛楃涓) + * [4. 鏃堕棿鍜屾棩鏈焆(#4-鏃堕棿鍜屾棩鏈) +* [绱㈠紩](#绱㈠紩) + * [1. 绱㈠紩鍒嗙被](#1-绱㈠紩鍒嗙被) + * [1.1 B-Tree 绱㈠紩](#11-b-tree-绱㈠紩) + * [1.2 鍝堝笇绱㈠紩](#12-鍝堝笇绱㈠紩) + * [1.3. 绌洪棿绱㈠紩鏁版嵁锛圧-Tree锛塢(#13-绌洪棿绱㈠紩鏁版嵁锛坮-tree锛) + * [1.4 鍏ㄦ枃绱㈠紩](#14-鍏ㄦ枃绱㈠紩) + * [2. 绱㈠紩鐨勪紭鐐筣(#2-绱㈠紩鐨勪紭鐐) + * [3. 绱㈠紩浼樺寲](#3-绱㈠紩浼樺寲) + * [3.1 鐙珛鐨勫垪](#31-鐙珛鐨勫垪) + * [3.2 鍓嶇紑绱㈠紩](#32-鍓嶇紑绱㈠紩) + * [3.3 澶氬垪绱㈠紩](#33-澶氬垪绱㈠紩) + * [3.4 绱㈠紩鍒楃殑椤哄簭](#34-绱㈠紩鍒楃殑椤哄簭) + * [3.5 鑱氱皣绱㈠紩](#35-鑱氱皣绱㈠紩) + * [3.6 瑕嗙洊绱㈠紩](#36-瑕嗙洊绱㈠紩) + * [4. B-Tree 鍜 B+Tree 鍘熺悊](#4-b-tree-鍜-b+tree-鍘熺悊) * [4. 1 B-Tree](#4-1-b-tree) * [4.2 B+Tree](#42-b+tree) - * [4.3 带有顺序访问指针的 B+Tree](#43-带有顺序访问指针的-b+tree) - * [4.4 为什么使用 B-Tree 和 B+Tree](#44-为什么使用-b-tree-和-b+tree) -* [查询性能优化](#查询性能优化) + * [4.3 甯︽湁椤哄簭璁块棶鎸囬拡鐨 B+Tree](#43-甯︽湁椤哄簭璁块棶鎸囬拡鐨-b+tree) + * [4.4 涓轰粈涔堜娇鐢 B-Tree 鍜 B+Tree](#44-涓轰粈涔堜娇鐢-b-tree-鍜-b+tree) +* [鏌ヨ鎬ц兘浼樺寲](#鏌ヨ鎬ц兘浼樺寲) * [1. Explain](#1-explain) - * [2. 减少返回的列](#2-减少返回的列) - * [3. 减少返回的行](#3-减少返回的行) - * [4. 拆分大的 DELETE 或 INSERT 语句](#4-拆分大的-delete-或-insert-语句) -* [分库与分表](#分库与分表) -* [故障转移和故障恢复](#故障转移和故障恢复) - * [1. 故障转移](#1-故障转移) - * [2. 故障恢复](#2-故障恢复) -* [参考资料](#参考资料) + * [2. 鍑忓皯杩斿洖鐨勫垪](#2-鍑忓皯杩斿洖鐨勫垪) + * [3. 鍑忓皯杩斿洖鐨勮](#3-鍑忓皯杩斿洖鐨勮) + * [4. 鎷嗗垎澶х殑 DELETE 鎴 INSERT 璇彞](#4-鎷嗗垎澶х殑-delete-鎴-insert-璇彞) +* [鍒嗗簱涓庡垎琛╙(#鍒嗗簱涓庡垎琛) +* [鏁呴殰杞Щ鍜屾晠闅滄仮澶峕(#鏁呴殰杞Щ鍜屾晠闅滄仮澶) + * [1. 鏁呴殰杞Щ](#1-鏁呴殰杞Щ) + * [2. 鏁呴殰鎭㈠](#2-鏁呴殰鎭㈠) +* [鍙傝冭祫鏂橾(#鍙傝冭祫鏂) -# 事务四大特性 -## 1. 原子性 - -要么都执行,要么都不执行。 - -## 2. 一致性 - -事务执行前后都保持一致性状态。 - -## 3. 隔离性 - -多个事务单独执行,互不影响。 - -## 4. 持久性 - -即使系统发生故障,事务执行的结果也不能丢失。 - -# 存储引擎 +# 瀛樺偍寮曟搸 ## 1. InnoDB -InnoDB 是 MySQL 的默认事务型引擎,只有在需要 InnoDB 不支持的特性时,才考虑使用其它存储引擎。 +InnoDB 鏄 MySQL 鐨勯粯璁や簨鍔″瀷寮曟搸锛屽彧鏈夊湪闇瑕 InnoDB 涓嶆敮鎸佺殑鐗规ф椂锛屾墠鑰冭檻浣跨敤鍏跺畠瀛樺偍寮曟搸銆 -采用 MVCC 来支持高并发,并且实现了四个标准的隔离级别,默认级别是可重复读。 +閲囩敤 MVCC 鏉ユ敮鎸侀珮骞跺彂锛屽苟涓斿疄鐜颁簡鍥涗釜鏍囧噯鐨勯殧绂荤骇鍒紝榛樿绾у埆鏄彲閲嶅璇汇 -表是基于聚簇索引建立的,它对主键的查询性能有很高的提升。 +琛ㄦ槸鍩轰簬鑱氱皣绱㈠紩寤虹珛鐨勶紝瀹冨涓婚敭鐨勬煡璇㈡ц兘鏈夊緢楂樼殑鎻愬崌銆 -内部做了很多优化,包括从磁盘读取数据时采用的可预测性读,能够自动在内存中创建 hash 索引以加速读操作的自适应哈希索引,以及能够加速插入操作的插入缓冲区等。 +鍐呴儴鍋氫簡寰堝浼樺寲锛屽寘鎷粠纾佺洏璇诲彇鏁版嵁鏃堕噰鐢ㄧ殑鍙娴嬫ц锛岃兘澶熻嚜鍔ㄥ湪鍐呭瓨涓垱寤 hash 绱㈠紩浠ュ姞閫熻鎿嶄綔鐨勮嚜閫傚簲鍝堝笇绱㈠紩锛屼互鍙婅兘澶熷姞閫熸彃鍏ユ搷浣滅殑鎻掑叆缂撳啿鍖虹瓑銆 -通过一些机制和工具支持真正的热备份。 +閫氳繃涓浜涙満鍒跺拰宸ュ叿鏀寔鐪熸鐨勭儹澶囦唤銆 ## 2. MyISAM -MyISAM 提供了大量的特性,包括全文索引、压缩、空间函数(GIS)等。但 MyISAM 不支持事务和行级锁,而且奔溃后无法安全恢复。 +MyISAM 鎻愪緵浜嗗ぇ閲忕殑鐗规э紝鍖呮嫭鍏ㄦ枃绱㈠紩銆佸帇缂┿佺┖闂村嚱鏁帮紙GIS锛夌瓑銆備絾 MyISAM 涓嶆敮鎸佷簨鍔″拰琛岀骇閿侊紝鑰屼笖濂旀簝鍚庢棤娉曞畨鍏ㄦ仮澶嶃 -只能对整张表加锁,而不是针对行。 +鍙兘瀵规暣寮犺〃鍔犻攣锛岃屼笉鏄拡瀵硅銆 -可以手工或者自动执行检查和修复操作,但是和事务恢复以及奔溃恢复不同,可能导致一些数据丢失,而且修复操作是非常慢的。 +鍙互鎵嬪伐鎴栬呰嚜鍔ㄦ墽琛屾鏌ュ拰淇鎿嶄綔锛屼絾鏄拰浜嬪姟鎭㈠浠ュ強濂旀簝鎭㈠涓嶅悓锛屽彲鑳藉鑷翠竴浜涙暟鎹涪澶憋紝鑰屼笖淇鎿嶄綔鏄潪甯告參鐨勩 -可以包含动态或者静态的行。 +鍙互鍖呭惈鍔ㄦ佹垨鑰呴潤鎬佺殑琛屻 -如果指定了 DELAY_KEY_WRITE 选项,在每次修改执行完成时,不会立即将修改的索引数据写入磁盘,而是会写到内存中的键缓冲区,只有在清理键缓冲区或者关闭表的时候才会将对应的索引块写入磁盘。这种方式可以极大的提升写入性能,但是在数据库或者主机奔溃时会造成索引损坏,需要执行修复操作。 +濡傛灉鎸囧畾浜 DELAY_KEY_WRITE 閫夐」锛屽湪姣忔淇敼鎵ц瀹屾垚鏃讹紝涓嶄細绔嬪嵆灏嗕慨鏀圭殑绱㈠紩鏁版嵁鍐欏叆纾佺洏锛岃屾槸浼氬啓鍒板唴瀛樹腑鐨勯敭缂撳啿鍖猴紝鍙湁鍦ㄦ竻鐞嗛敭缂撳啿鍖烘垨鑰呭叧闂〃鐨勬椂鍊欐墠浼氬皢瀵瑰簲鐨勭储寮曞潡鍐欏叆纾佺洏銆傝繖绉嶆柟寮忓彲浠ユ瀬澶х殑鎻愬崌鍐欏叆鎬ц兘锛屼絾鏄湪鏁版嵁搴撴垨鑰呬富鏈哄婧冩椂浼氶犳垚绱㈠紩鎹熷潖锛岄渶瑕佹墽琛屼慨澶嶆搷浣溿 -如果表在创建并导入数据以后,不会再进行修改操作,那么这样的表适合采用 MyISAM 压缩表。 +濡傛灉琛ㄥ湪鍒涘缓骞跺鍏ユ暟鎹互鍚庯紝涓嶄細鍐嶈繘琛屼慨鏀规搷浣滐紝閭d箞杩欐牱鐨勮〃閫傚悎閲囩敤 MyISAM 鍘嬬缉琛ㄣ -对于只读数据,或者表比较小、可以容忍修复操作,则依然可以继续使用 MyISAM。 +瀵逛簬鍙鏁版嵁锛屾垨鑰呰〃姣旇緝灏忋佸彲浠ュ蹇嶄慨澶嶆搷浣滐紝鍒欎緷鐒跺彲浠ョ户缁娇鐢 MyISAM銆 -MyISAM 设计简单,数据以紧密格式存储,所以在某些场景下性能很好。 +MyISAM 璁捐绠鍗曪紝鏁版嵁浠ョ揣瀵嗘牸寮忓瓨鍌紝鎵浠ュ湪鏌愪簺鍦烘櫙涓嬫ц兘寰堝ソ銆 -## 3. InnoDB 与 MyISAM 的比较 +## 3. InnoDB 涓 MyISAM 鐨勬瘮杈 -**事务** +**浜嬪姟** -InnoDB 是事务型的。 +InnoDB 鏄簨鍔″瀷鐨勩 -**备份** +**澶囦唤** -InnoDB 支持在线热备份。 +InnoDB 鏀寔鍦ㄧ嚎鐑浠姐 -**奔溃恢复** +**濂旀簝鎭㈠** -MyISAM 奔溃后发生损坏的概率比 InnoDB 高很多,而且恢复的速度也更慢。 +MyISAM 濂旀簝鍚庡彂鐢熸崯鍧忕殑姒傜巼姣 InnoDB 楂樺緢澶氾紝鑰屼笖鎭㈠鐨勯熷害涔熸洿鎱€ -**并发** +**骞跺彂** -MyISAM 只支持表级锁,而 InnoDB 还支持行级锁。 +MyISAM 鍙敮鎸佽〃绾ч攣锛岃 InnoDB 杩樻敮鎸佽绾ч攣銆 -**其它特性** +**鍏跺畠鐗规** -MyISAM 支持全文索引,地理空间索引; +MyISAM 鏀寔鍏ㄦ枃绱㈠紩锛屽湴鐞嗙┖闂寸储寮曪紱 -# 数据类型 +# 鏁版嵁绫诲瀷 -## 1. 整型 +## 1. 鏁村瀷 -TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT 分别使用 8, 16, 24, 64 位存储空间,一般情况下越小的列越好。 +TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT 鍒嗗埆浣跨敤 8, 16, 24, 64 浣嶅瓨鍌ㄧ┖闂达紝涓鑸儏鍐典笅瓒婂皬鐨勫垪瓒婂ソ銆 -INT(11) 中的数字只是规定了交互工具显示字符的个数,对于存储和计算来说是没有意义的。 +INT(11) 涓殑鏁板瓧鍙槸瑙勫畾浜嗕氦浜掑伐鍏锋樉绀哄瓧绗︾殑涓暟锛屽浜庡瓨鍌ㄥ拰璁$畻鏉ヨ鏄病鏈夋剰涔夌殑銆 -## 2. 浮点数 +## 2. 娴偣鏁 -FLOAT 和 DOUBLE 为浮点类型,DECIMAL 为高精度小数类型。CPU 原生支持浮点运算,但是不支持 DECIMAl 类型的计算,因此 DECIMAL 的计算比浮点类型需要更高的代价。 +FLOAT 鍜 DOUBLE 涓烘诞鐐圭被鍨嬶紝DECIMAL 涓洪珮绮惧害灏忔暟绫诲瀷銆侰PU 鍘熺敓鏀寔娴偣杩愮畻锛屼絾鏄笉鏀寔 DECIMAl 绫诲瀷鐨勮绠楋紝鍥犳 DECIMAL 鐨勮绠楁瘮娴偣绫诲瀷闇瑕佹洿楂樼殑浠d环銆 -FLOAT、DOUBLE 和 DECIMAL 都可以指定列宽,例如 DECIMAL(18, 9) 表示总共 18 位,取 9 位存储小数部分,剩下 9 位存储整数部分。 +FLOAT銆丏OUBLE 鍜 DECIMAL 閮藉彲浠ユ寚瀹氬垪瀹斤紝渚嬪 DECIMAL(18, 9) 琛ㄧず鎬诲叡 18 浣嶏紝鍙 9 浣嶅瓨鍌ㄥ皬鏁伴儴鍒嗭紝鍓╀笅 9 浣嶅瓨鍌ㄦ暣鏁伴儴鍒嗐 -## 3. 字符串 +## 3. 瀛楃涓 -主要有 CHAR 和 VARCHAR 两种类型,一种是定长的,一种是变长的。 +涓昏鏈 CHAR 鍜 VARCHAR 涓ょ绫诲瀷锛屼竴绉嶆槸瀹氶暱鐨勶紝涓绉嶆槸鍙橀暱鐨勩 -VARCHAR 这种变长类型能够节省空间,因为只需要存储必要的内容。但是在执行 UPDATE 时可能会使行变得比原来长,当超出一个页所能容纳的大小时,就要执行额外的操作,MyISAM 会将行拆成不同的片段存储,而 InnoDB 则需要分裂页来使行放进页内。 +VARCHAR 杩欑鍙橀暱绫诲瀷鑳藉鑺傜渷绌洪棿锛屽洜涓哄彧闇瑕佸瓨鍌ㄥ繀瑕佺殑鍐呭銆備絾鏄湪鎵ц UPDATE 鏃跺彲鑳戒細浣胯鍙樺緱姣斿師鏉ラ暱锛屽綋瓒呭嚭涓涓〉鎵鑳藉绾崇殑澶у皬鏃讹紝灏辫鎵ц棰濆鐨勬搷浣滐紝MyISAM 浼氬皢琛屾媶鎴愪笉鍚岀殑鐗囨瀛樺偍锛岃 InnoDB 鍒欓渶瑕佸垎瑁傞〉鏉ヤ娇琛屾斁杩涢〉鍐呫 -VARCHAR 会保留字符串末尾的空格,而 CHAR 会删除。 +VARCHAR 浼氫繚鐣欏瓧绗︿覆鏈熬鐨勭┖鏍硷紝鑰 CHAR 浼氬垹闄ゃ -## 4. 时间和日期 +## 4. 鏃堕棿鍜屾棩鏈 -MySQL 提供了两种相似的日期时间类型:DATATIME 和 TIMESTAMP。 +MySQL 鎻愪緵浜嗕袱绉嶇浉浼肩殑鏃ユ湡鏃堕棿绫诲瀷锛欴ATATIME 鍜 TIMESTAMP銆 **DATATIME** -能够保存从 1001 年到 9999 年的日期和时间,精度为秒,使用 8 字节的存储空间。 +鑳藉淇濆瓨浠 1001 骞村埌 9999 骞寸殑鏃ユ湡鍜屾椂闂达紝绮惧害涓虹锛屼娇鐢 8 瀛楄妭鐨勫瓨鍌ㄧ┖闂淬 -它与时区无关。 +瀹冧笌鏃跺尯鏃犲叧銆 -默认情况下,MySQL 以一种可排序的、无歧义的格式显示 DATATIME 值,例如“2008-01016 22:37:08”,这是 ANSI 标准定义的日期和时间表示方法。 +榛樿鎯呭喌涓嬶紝MySQL 浠ヤ竴绉嶅彲鎺掑簭鐨勩佹棤姝т箟鐨勬牸寮忔樉绀 DATATIME 鍊硷紝渚嬪鈥2008-01016 22:37:08鈥濓紝杩欐槸 ANSI 鏍囧噯瀹氫箟鐨勬棩鏈熷拰鏃堕棿琛ㄧず鏂规硶銆 **TIMESTAMP** -和 UNIX 时间戳相同,保存从 1970 年 1 月 1 日午夜(格林威治时间)以来的秒数,使用 4 个字节,只能表示从 1970 年 到 2038 年。 +鍜 UNIX 鏃堕棿鎴崇浉鍚岋紝淇濆瓨浠 1970 骞 1 鏈 1 鏃ュ崍澶滐紙鏍兼灄濞佹不鏃堕棿锛変互鏉ョ殑绉掓暟锛屼娇鐢 4 涓瓧鑺傦紝鍙兘琛ㄧず浠 1970 骞 鍒 2038 骞淬 -它和时区有关。 +瀹冨拰鏃跺尯鏈夊叧銆 -MySQL 提供了 FROM_UNIXTIME() 函数把 Unxi 时间戳转换为日期,并提供了 UNIX_TIMESTAMP() 函数把日期转换为 Unix 时间戳。 +MySQL 鎻愪緵浜 FROM_UNIXTIME() 鍑芥暟鎶 Unxi 鏃堕棿鎴宠浆鎹负鏃ユ湡锛屽苟鎻愪緵浜 UNIX_TIMESTAMP() 鍑芥暟鎶婃棩鏈熻浆鎹负 Unix 鏃堕棿鎴炽 -默认情况下,如果插入时没有指定 TIMESTAMP 列的值,会将这个值设置为当前时间。 +榛樿鎯呭喌涓嬶紝濡傛灉鎻掑叆鏃舵病鏈夋寚瀹 TIMESTAMP 鍒楃殑鍊硷紝浼氬皢杩欎釜鍊艰缃负褰撳墠鏃堕棿銆 -应该尽量使用 TIMESTAMP,因为它比 DATETIME 空间效率更高。 +搴旇灏介噺浣跨敤 TIMESTAMP锛屽洜涓哄畠姣 DATETIME 绌洪棿鏁堢巼鏇撮珮銆 -# 索引 +# 绱㈠紩 -索引是在存储引擎层实现的,而不是在服务器层实现的,所以不同存储引擎具有不同的索引类型和实现。 +绱㈠紩鏄湪瀛樺偍寮曟搸灞傚疄鐜扮殑锛岃屼笉鏄湪鏈嶅姟鍣ㄥ眰瀹炵幇鐨勶紝鎵浠ヤ笉鍚屽瓨鍌ㄥ紩鎿庡叿鏈変笉鍚岀殑绱㈠紩绫诲瀷鍜屽疄鐜般 -索引能够轻易将查询性能提升几个数量级。 +绱㈠紩鑳藉杞绘槗灏嗘煡璇㈡ц兘鎻愬崌鍑犱釜鏁伴噺绾с -对于非常小的表、大部分情况下简单的全表扫描比建立索引更高效。对于中到大型的表,索引就非常有效。但是对于特大型的表,建立和使用索引的代价将会随之增长。这种情况下,需要用到一种技术可以直接区分出需要查询的一组数据,而不是一条记录一条记录地匹配,例如可以使用分区技术。 +瀵逛簬闈炲父灏忕殑琛ㄣ佸ぇ閮ㄥ垎鎯呭喌涓嬬畝鍗曠殑鍏ㄨ〃鎵弿姣斿缓绔嬬储寮曟洿楂樻晥銆傚浜庝腑鍒板ぇ鍨嬬殑琛紝绱㈠紩灏遍潪甯告湁鏁堛備絾鏄浜庣壒澶у瀷鐨勮〃锛屽缓绔嬪拰浣跨敤绱㈠紩鐨勪唬浠峰皢浼氶殢涔嬪闀裤傝繖绉嶆儏鍐典笅锛岄渶瑕佺敤鍒颁竴绉嶆妧鏈彲浠ョ洿鎺ュ尯鍒嗗嚭闇瑕佹煡璇㈢殑涓缁勬暟鎹紝鑰屼笉鏄竴鏉¤褰曚竴鏉¤褰曞湴鍖归厤锛屼緥濡傚彲浠ヤ娇鐢ㄥ垎鍖烘妧鏈 -## 1. 索引分类 +## 1. 绱㈠紩鍒嗙被 -### 1.1 B-Tree 索引 +### 1.1 B-Tree 绱㈠紩 -B-Tree 索引是大多数 MySQL 存储引擎的默认索引类型。 +B-Tree 绱㈠紩鏄ぇ澶氭暟 MySQL 瀛樺偍寮曟搸鐨勯粯璁ょ储寮曠被鍨嬨 -因为不再需要进行全表扫描,只需要对树进行搜索即可,因此查找速度快很多。 +鍥犱负涓嶅啀闇瑕佽繘琛屽叏琛ㄦ壂鎻忥紝鍙渶瑕佸鏍戣繘琛屾悳绱㈠嵆鍙紝鍥犳鏌ユ壘閫熷害蹇緢澶氥 -可以指定多个列作为索引列,多个索引列共同组成键。B-Tree 索引适用于全键值、键值范围和键前缀查找,其中键前缀查找只适用于最左前缀查找。 +鍙互鎸囧畾澶氫釜鍒椾綔涓虹储寮曞垪锛屽涓储寮曞垪鍏卞悓缁勬垚閿侭-Tree 绱㈠紩閫傜敤浜庡叏閿笺侀敭鍊艰寖鍥村拰閿墠缂鏌ユ壘锛屽叾涓敭鍓嶇紑鏌ユ壘鍙傜敤浜庢渶宸﹀墠缂鏌ユ壘銆 -除了用于查找,还可以用于排序和分组。 +闄や簡鐢ㄤ簬鏌ユ壘锛岃繕鍙互鐢ㄤ簬鎺掑簭鍜屽垎缁勩 -如果不是按照索引列的顺序进行查找,则无法使用索引。 +濡傛灉涓嶆槸鎸夌収绱㈠紩鍒楃殑椤哄簭杩涜鏌ユ壘锛屽垯鏃犳硶浣跨敤绱㈠紩銆 -### 1.2 哈希索引 +### 1.2 鍝堝笇绱㈠紩 -基于哈希表实现,优点是查找非常快。 +鍩轰簬鍝堝笇琛ㄥ疄鐜帮紝浼樼偣鏄煡鎵鹃潪甯稿揩銆 -在 MySQL 中只有 Memory 引擎显式支持哈希索引。 +鍦 MySQL 涓彧鏈 Memory 寮曟搸鏄惧紡鏀寔鍝堝笇绱㈠紩銆 -InnoDB 引擎有一个特殊的功能叫“自适应哈希索引”,当某个索引值被使用的非常频繁时,会在 B-Tree 索引之上再创建一个哈希索引,这样就让 B-Tree 索引具有哈希索引的一些优点,比如快速的哈希查找。 +InnoDB 寮曟搸鏈変竴涓壒娈婄殑鍔熻兘鍙滆嚜閫傚簲鍝堝笇绱㈠紩鈥濓紝褰撴煇涓储寮曞艰浣跨敤鐨勯潪甯搁绻佹椂锛屼細鍦 B-Tree 绱㈠紩涔嬩笂鍐嶅垱寤轰竴涓搱甯岀储寮曪紝杩欐牱灏辫 B-Tree 绱㈠紩鍏锋湁鍝堝笇绱㈠紩鐨勪竴浜涗紭鐐癸紝姣斿蹇熺殑鍝堝笇鏌ユ壘銆 -限制:哈希索引只包含哈希值和行指针,而不存储字段值,所以不能使用索引中的值来避免读取行。不过,访问内存中的行的速度很快,所以大部分情况下这一点对性能影响并不明显;无法用于分组与排序;只支持精确查找,无法用于部分查找和范围查找;如果哈希冲突很多,查找速度会变得很慢。 +闄愬埗锛氬搱甯岀储寮曞彧鍖呭惈鍝堝笇鍊煎拰琛屾寚閽堬紝鑰屼笉瀛樺偍瀛楁鍊硷紝鎵浠ヤ笉鑳戒娇鐢ㄧ储寮曚腑鐨勫兼潵閬垮厤璇诲彇琛屻備笉杩囷紝璁块棶鍐呭瓨涓殑琛岀殑閫熷害寰堝揩锛屾墍浠ュぇ閮ㄥ垎鎯呭喌涓嬭繖涓鐐瑰鎬ц兘褰卞搷骞朵笉鏄庢樉锛涙棤娉曠敤浜庡垎缁勪笌鎺掑簭锛涘彧鏀寔绮剧‘鏌ユ壘锛屾棤娉曠敤浜庨儴鍒嗘煡鎵惧拰鑼冨洿鏌ユ壘锛涘鏋滃搱甯屽啿绐佸緢澶氾紝鏌ユ壘閫熷害浼氬彉寰楀緢鎱€ -### 1.3. 空间索引数据(R-Tree) +### 1.3. 绌洪棿绱㈠紩鏁版嵁锛圧-Tree锛 -MyISAM 存储引擎支持空间索引,可以用于地理数据存储。 +MyISAM 瀛樺偍寮曟搸鏀寔绌洪棿绱㈠紩锛屽彲浠ョ敤浜庡湴鐞嗘暟鎹瓨鍌ㄣ -空间索引会从所有维度来索引数据,可以有效地使用任意维度来进行组合查询。 +绌洪棿绱㈠紩浼氫粠鎵鏈夌淮搴︽潵绱㈠紩鏁版嵁锛屽彲浠ユ湁鏁堝湴浣跨敤浠绘剰缁村害鏉ヨ繘琛岀粍鍚堟煡璇€ -### 1.4 全文索引 +### 1.4 鍏ㄦ枃绱㈠紩 -MyISAM 存储引擎支持全文索引,用于查找文本中的关键词,而不是直接比较索引中的值。 +MyISAM 瀛樺偍寮曟搸鏀寔鍏ㄦ枃绱㈠紩锛岀敤浜庢煡鎵炬枃鏈腑鐨勫叧閿瘝锛岃屼笉鏄洿鎺ユ瘮杈冪储寮曚腑鐨勫笺 -使用 MATCH AGAINST,而不是普通的 WHERE。 +浣跨敤 MATCH AGAINST锛岃屼笉鏄櫘閫氱殑 WHERE銆 -## 2. 索引的优点 +## 2. 绱㈠紩鐨勪紭鐐 -- 大大减少了服务器需要扫描的数据量; +- 澶уぇ鍑忓皯浜嗘湇鍔″櫒闇瑕佹壂鎻忕殑鏁版嵁閲忥紱 -- 帮助服务器避免进行排序和创建临时表; +- 甯姪鏈嶅姟鍣ㄩ伩鍏嶈繘琛屾帓搴忓拰鍒涘缓涓存椂琛紱 -- 将随机 I/O 变为顺序 I/O。 +- 灏嗛殢鏈 I/O 鍙樹负椤哄簭 I/O銆 -## 3. 索引优化 +## 3. 绱㈠紩浼樺寲 -### 3.1 独立的列 +### 3.1 鐙珛鐨勫垪 -在进行查询时,索引列不能是表达式的一部分,也不能是函数的参数,否则无法使用索引。 +鍦ㄨ繘琛屾煡璇㈡椂锛岀储寮曞垪涓嶈兘鏄〃杈惧紡鐨勪竴閮ㄥ垎锛屼篃涓嶈兘鏄嚱鏁扮殑鍙傛暟锛屽惁鍒欐棤娉曚娇鐢ㄧ储寮曘 -例如下面的查询不能使用 actor_id 列的索引: +渚嬪涓嬮潰鐨勬煡璇笉鑳戒娇鐢 actor_id 鍒楃殑绱㈠紩锛 ```sql SELECT actor_id FROM sakila.actor WHERE actor_id + 1 = 5; ``` -### 3.2 前缀索引 +### 3.2 鍓嶇紑绱㈠紩 -对于 BLOB、TEXT 和 VARCHAR 类型的列,必须使用前缀索引,只索引开始的部分字符。 +瀵逛簬 BLOB銆乀EXT 鍜 VARCHAR 绫诲瀷鐨勫垪锛屽繀椤讳娇鐢ㄥ墠缂绱㈠紩锛屽彧绱㈠紩寮濮嬬殑閮ㄥ垎瀛楃銆 -对于前缀长度的选取需要根据 **索引选择性** 来确定:不重复的索引值和记录总数的比值。选择性越高,查询效率也越高。最大值为 1 ,此时每个记录都有唯一的索引与其对应。 +瀵逛簬鍓嶇紑闀垮害鐨勯夊彇闇瑕佹牴鎹 **绱㈠紩閫夋嫨鎬** 鏉ョ‘瀹氾細涓嶉噸澶嶇殑绱㈠紩鍊煎拰璁板綍鎬绘暟鐨勬瘮鍊笺傞夋嫨鎬ц秺楂橈紝鏌ヨ鏁堢巼涔熻秺楂樸傛渶澶у间负 1 锛屾鏃舵瘡涓褰曢兘鏈夊敮涓鐨勭储寮曚笌鍏跺搴斻 -### 3.3 多列索引 +### 3.3 澶氬垪绱㈠紩 -在需要使用多个列作为条件进行查询时,使用多列索引比使用多个单列索引性能更好。例如下面的语句中,最好把 actor_id 和 file_id 设置为多列索引。 +鍦ㄩ渶瑕佷娇鐢ㄥ涓垪浣滀负鏉′欢杩涜鏌ヨ鏃讹紝浣跨敤澶氬垪绱㈠紩姣斾娇鐢ㄥ涓崟鍒楃储寮曟ц兘鏇村ソ銆備緥濡備笅闈㈢殑璇彞涓紝鏈濂芥妸 actor_id 鍜 file_id 璁剧疆涓哄鍒楃储寮曘 ```sql SELECT file_id, actor_ id FROM sakila.film_actor WhERE actor_id = 1 OR film_id = 1; ``` -### 3.4 索引列的顺序 +### 3.4 绱㈠紩鍒楃殑椤哄簭 -让选择性最强的索引列放在前面,例如下面显示的结果中 customer_id 的选择性比 staff_id 更高,因此最好把 customer_id 列放在多列索引的前面。 +璁╅夋嫨鎬ф渶寮虹殑绱㈠紩鍒楁斁鍦ㄥ墠闈紝渚嬪涓嬮潰鏄剧ず鐨勭粨鏋滀腑 customer_id 鐨勯夋嫨鎬ф瘮 staff_id 鏇撮珮锛屽洜姝ゆ渶濂芥妸 customer_id 鍒楁斁鍦ㄥ鍒楃储寮曠殑鍓嶉潰銆 ```sql SELECT COUNT(DISTINCT staff_id)/COUNT(*) AS staff_id_selectivity, @@ -258,107 +236,107 @@ customer_id_selectivity: 0.0373 COUNT(*): 16049 ``` -### 3.5 聚簇索引 +### 3.5 鑱氱皣绱㈠紩 ![](https://github.com/CyC2018/InterviewNotes/blob/master/pics/b9e9ae8c-e216-4c01-b267-a50dbeb98fa4.jpg) -聚簇索引并不是一种索引类型,而是一种数据存储方式。 +鑱氱皣绱㈠紩骞朵笉鏄竴绉嶇储寮曠被鍨嬶紝鑰屾槸涓绉嶆暟鎹瓨鍌ㄦ柟寮忋 -术语“聚簇”表示数据行和相邻的键值紧密地存储在一起,InnoDB 的聚簇索引的数据行存放在 B-Tree 的叶子页中。 +鏈鈥滆仛绨団濊〃绀烘暟鎹鍜岀浉閭荤殑閿肩揣瀵嗗湴瀛樺偍鍦ㄤ竴璧凤紝InnoDB 鐨勮仛绨囩储寮曠殑鏁版嵁琛屽瓨鏀惧湪 B-Tree 鐨勫彾瀛愰〉涓 -因为无法把数据行存放在两个不同的地方,所以一个表只能有一个聚簇索引。 +鍥犱负鏃犳硶鎶婃暟鎹瀛樻斁鍦ㄤ袱涓笉鍚岀殑鍦版柟锛屾墍浠ヤ竴涓〃鍙兘鏈変竴涓仛绨囩储寮曘 -**优点** +**浼樼偣** -1. 可以把相关数据保存在一起,减少 I/O 操作; -2. 因为数据保存在 B-Tree 中,因此数据访问更快。 +1. 鍙互鎶婄浉鍏虫暟鎹繚瀛樺湪涓璧凤紝鍑忓皯 I/O 鎿嶄綔锛 +2. 鍥犱负鏁版嵁淇濆瓨鍦 B-Tree 涓紝鍥犳鏁版嵁璁块棶鏇村揩銆 -**缺点** +**缂虹偣** -1. 聚簇索引最大限度提高了 I/O 密集型应用的性能,但是如果数据全部放在内存,就没必要用聚簇索引。 -2. 插入速度严重依赖于插入顺序,按主键的顺序插入是最快的。 -3. 更新操作代价很高,因为每个被更新的行都会移动到新的位置。 -4. 当插入到某个已满的页中,存储引擎会将该页分裂成两个页面来容纳该行,页分裂会导致表占用更多的磁盘空间。 -5. 如果行比较稀疏,或者由于页分裂导致数据存储不连续时,聚簇索引可能导致全表扫描速度变慢。 +1. 鑱氱皣绱㈠紩鏈澶ч檺搴︽彁楂樹簡 I/O 瀵嗛泦鍨嬪簲鐢ㄧ殑鎬ц兘锛屼絾鏄鏋滄暟鎹叏閮ㄦ斁鍦ㄥ唴瀛橈紝灏辨病蹇呰鐢ㄨ仛绨囩储寮曘 +2. 鎻掑叆閫熷害涓ラ噸渚濊禆浜庢彃鍏ラ『搴忥紝鎸変富閿殑椤哄簭鎻掑叆鏄渶蹇殑銆 +3. 鏇存柊鎿嶄綔浠d环寰堥珮锛屽洜涓烘瘡涓鏇存柊鐨勮閮戒細绉诲姩鍒版柊鐨勪綅缃 +4. 褰撴彃鍏ュ埌鏌愪釜宸叉弧鐨勯〉涓紝瀛樺偍寮曟搸浼氬皢璇ラ〉鍒嗚鎴愪袱涓〉闈㈡潵瀹圭撼璇ヨ锛岄〉鍒嗚浼氬鑷磋〃鍗犵敤鏇村鐨勭鐩樼┖闂淬 +5. 濡傛灉琛屾瘮杈冪█鐤忥紝鎴栬呯敱浜庨〉鍒嗚瀵艰嚧鏁版嵁瀛樺偍涓嶈繛缁椂锛岃仛绨囩储寮曞彲鑳藉鑷村叏琛ㄦ壂鎻忛熷害鍙樻參銆 -### 3.6 覆盖索引 +### 3.6 瑕嗙洊绱㈠紩 -索引包含所有需要查询的字段的值。 +绱㈠紩鍖呭惈鎵鏈夐渶瑕佹煡璇㈢殑瀛楁鐨勫笺 -## 4. B-Tree 和 B+Tree 原理 +## 4. B-Tree 鍜 B+Tree 鍘熺悊 ### 4. 1 B-Tree ![](https://github.com/CyC2018/InterviewNotes/blob/master/pics/5ed71283-a070-4b21-85ae-f2cbfd6ba6e1.jpg) -为了描述 B-Tree,首先定义一条数据记录为一个二元组 [key, data],key 为记录的键,data 为数据记录除 key 外的数据。 +涓轰簡鎻忚堪 B-Tree锛岄鍏堝畾涔変竴鏉℃暟鎹褰曚负涓涓簩鍏冪粍 [key, data]锛宬ey 涓鸿褰曠殑閿紝data 涓烘暟鎹褰曢櫎 key 澶栫殑鏁版嵁銆 -B-Tree 是满足下列条件的数据结构: +B-Tree 鏄弧瓒充笅鍒楁潯浠剁殑鏁版嵁缁撴瀯锛 -- 所有叶节点具有相同的深度,也就是说 B-Tree 是平衡的; -- 一个节点中的 key 从左到右非递减排列; -- 如果某个指针的左右相邻 key 分别是 keyi 和 keyi+1,且不为 null,则该指针指向节点的所有 key 大于 keyi 且小于 keyi+1。 +- 鎵鏈夊彾鑺傜偣鍏锋湁鐩稿悓鐨勬繁搴︼紝涔熷氨鏄 B-Tree 鏄钩琛$殑锛 +- 涓涓妭鐐逛腑鐨 key 浠庡乏鍒板彸闈為掑噺鎺掑垪锛 +- 濡傛灉鏌愪釜鎸囬拡鐨勫乏鍙崇浉閭 key 鍒嗗埆鏄 keyi 鍜 keyi+1锛屼笖涓嶄负 null锛屽垯璇ユ寚閽堟寚鍚戣妭鐐圭殑鎵鏈 key 澶т簬 keyi 涓斿皬浜 keyi+1銆 -在 B-Tree 中按 key 检索数据的算法非常直观:首先从根节点进行二分查找,如果找到则返回对应节点的 data,否则对相应区间的指针指向的节点递归进行查找,直到找到节点或找到 null 指针,前者查找成功,后者查找失败。 +鍦 B-Tree 涓寜 key 妫绱㈡暟鎹殑绠楁硶闈炲父鐩磋锛氶鍏堜粠鏍硅妭鐐硅繘琛屼簩鍒嗘煡鎵撅紝濡傛灉鎵惧埌鍒欒繑鍥炲搴旇妭鐐圭殑 data锛屽惁鍒欏鐩稿簲鍖洪棿鐨勬寚閽堟寚鍚戠殑鑺傜偣閫掑綊杩涜鏌ユ壘锛岀洿鍒版壘鍒拌妭鐐规垨鎵惧埌 null 鎸囬拡锛屽墠鑰呮煡鎵炬垚鍔燂紝鍚庤呮煡鎵惧け璐ャ -由于插入删除新的数据记录会破坏 B-Tree 的性质,因此在插入删除时,需要对树进行一个分裂、合并、转移等操作以保持 B-Tree 性质。 +鐢变簬鎻掑叆鍒犻櫎鏂扮殑鏁版嵁璁板綍浼氱牬鍧 B-Tree 鐨勬ц川锛屽洜姝ゅ湪鎻掑叆鍒犻櫎鏃讹紝闇瑕佸鏍戣繘琛屼竴涓垎瑁傘佸悎骞躲佽浆绉荤瓑鎿嶄綔浠ヤ繚鎸 B-Tree 鎬ц川銆 ### 4.2 B+Tree ![](https://github.com/CyC2018/InterviewNotes/blob/master/pics/63cd5b50-d6d8-4df6-8912-ef4a1dd5ba13.jpg) -与 B-Tree 相比,B+Tree 有以下不同点: +涓 B-Tree 鐩告瘮锛孊+Tree 鏈変互涓嬩笉鍚岀偣锛 -- 每个节点的指针上限为 2d 而不是 2d+1; -- 内节点不存储 data,只存储 key,叶子节点不存储指针。 +- 姣忎釜鑺傜偣鐨勬寚閽堜笂闄愪负 2d 鑰屼笉鏄 2d+1锛 +- 鍐呰妭鐐逛笉瀛樺偍 data锛屽彧瀛樺偍 key锛屽彾瀛愯妭鐐逛笉瀛樺偍鎸囬拡銆 -### 4.3 带有顺序访问指针的 B+Tree +### 4.3 甯︽湁椤哄簭璁块棶鎸囬拡鐨 B+Tree ![](https://github.com/CyC2018/InterviewNotes/blob/master/pics/1ee5f0a5-b8df-43b9-95ab-c516c54ec797.jpg) -一般在数据库系统或文件系统中使用的 B+Tree 结构都在经典 B+Tree 基础上进行了优化,在叶子节点增加了顺序访问指针,做这个优化的目的是为了提高区间访问的性能。 +涓鑸湪鏁版嵁搴撶郴缁熸垨鏂囦欢绯荤粺涓娇鐢ㄧ殑 B+Tree 缁撴瀯閮藉湪缁忓吀 B+Tree 鍩虹涓婅繘琛屼簡浼樺寲锛屽湪鍙跺瓙鑺傜偣澧炲姞浜嗛『搴忚闂寚閽堬紝鍋氳繖涓紭鍖栫殑鐩殑鏄负浜嗘彁楂樺尯闂磋闂殑鎬ц兘銆 -### 4.4 为什么使用 B-Tree 和 B+Tree +### 4.4 涓轰粈涔堜娇鐢 B-Tree 鍜 B+Tree -红黑树等数据结构也可以用来实现索引,但是文件系统及数据库系统普遍采用 B-/+Tree 作为索引结构。 +绾㈤粦鏍戠瓑鏁版嵁缁撴瀯涔熷彲浠ョ敤鏉ュ疄鐜扮储寮曪紝浣嗘槸鏂囦欢绯荤粺鍙婃暟鎹簱绯荤粺鏅亶閲囩敤 B-/+Tree 浣滀负绱㈠紩缁撴瀯銆 -页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块,每个存储块称为一页(在许多操作系统中,页得大小通常为 4k),主存和磁盘以页为单位交换数据。 +椤垫槸璁$畻鏈虹鐞嗗瓨鍌ㄥ櫒鐨勯昏緫鍧楋紝纭欢鍙婃搷浣滅郴缁熷線寰灏嗕富瀛樺拰纾佺洏瀛樺偍鍖哄垎鍓蹭负杩炵画鐨勫ぇ灏忕浉绛夌殑鍧楋紝姣忎釜瀛樺偍鍧楃О涓轰竴椤碉紙鍦ㄨ澶氭搷浣滅郴缁熶腑锛岄〉寰楀ぇ灏忛氬父涓 4k锛夛紝涓诲瓨鍜岀鐩樹互椤典负鍗曚綅浜ゆ崲鏁版嵁銆 -一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。为了减少磁盘 I/O,磁盘往往不是严格按需读取,而是每次都会预读。这样做的理论依据是计算机科学中著名的局部性原理:当一个数据被用到时,其附近的数据也通常会马上被使用。数据库系统的设计者巧妙利用了磁盘预读原理,将一个节点的大小设为等于一个页,这样每个节点只需要一次 I/O 就可以完全载入。B-Tree 中一次检索最多需要 h-1 次 I/O(根节点常驻内存),渐进复杂度为 O(h)=O(logdN)。一般实际应用中,出度 d 是非常大的数字,通常超过 100,因此 h 非常小(通常不超过 3)。而红黑树这种结构,h 明显要深的多。并且于逻辑上很近的节点(父子)物理上可能很远,无法利用局部性,效率明显比 B-Tree 差很多。 +涓鑸潵璇达紝绱㈠紩鏈韩涔熷緢澶э紝涓嶅彲鑳藉叏閮ㄥ瓨鍌ㄥ湪鍐呭瓨涓紝鍥犳绱㈠紩寰寰浠ョ储寮曟枃浠剁殑褰㈠紡瀛樺偍鐨勭鐩樹笂銆備负浜嗗噺灏戠鐩 I/O锛岀鐩樺線寰涓嶆槸涓ユ牸鎸夐渶璇诲彇锛岃屾槸姣忔閮戒細棰勮銆傝繖鏍峰仛鐨勭悊璁轰緷鎹槸璁$畻鏈虹瀛︿腑钁楀悕鐨勫眬閮ㄦу師鐞嗭細褰撲竴涓暟鎹鐢ㄥ埌鏃讹紝鍏堕檮杩戠殑鏁版嵁涔熼氬父浼氶┈涓婅浣跨敤銆傛暟鎹簱绯荤粺鐨勮璁¤呭阀濡欏埄鐢ㄤ簡纾佺洏棰勮鍘熺悊锛屽皢涓涓妭鐐圭殑澶у皬璁句负绛変簬涓涓〉锛岃繖鏍锋瘡涓妭鐐瑰彧闇瑕佷竴娆 I/O 灏卞彲浠ュ畬鍏ㄨ浇鍏ャ侭-Tree 涓竴娆℃绱㈡渶澶氶渶瑕 h-1 娆 I/O锛堟牴鑺傜偣甯搁┗鍐呭瓨锛夛紝娓愯繘澶嶆潅搴︿负 O(h)=O(logdN)銆備竴鑸疄闄呭簲鐢ㄤ腑锛屽嚭搴 d 鏄潪甯稿ぇ鐨勬暟瀛楋紝閫氬父瓒呰繃 100锛屽洜姝 h 闈炲父灏忥紙閫氬父涓嶈秴杩 3锛夈傝岀孩榛戞爲杩欑缁撴瀯锛宧 鏄庢樉瑕佹繁鐨勫銆傚苟涓斾簬閫昏緫涓婂緢杩戠殑鑺傜偣锛堢埗瀛愶級鐗╃悊涓婂彲鑳藉緢杩滐紝鏃犳硶鍒╃敤灞閮ㄦэ紝鏁堢巼鏄庢樉姣 B-Tree 宸緢澶氥 -B+Tree 更适合外存索引,原因和内节点出度 d 有关。由于 B+Tree 内节点去掉了 data 域,因此可以拥有更大的出度,拥有更好的性能。 +B+Tree 鏇撮傚悎澶栧瓨绱㈠紩锛屽師鍥犲拰鍐呰妭鐐瑰嚭搴 d 鏈夊叧銆傜敱浜 B+Tree 鍐呰妭鐐瑰幓鎺変簡 data 鍩燂紝鍥犳鍙互鎷ユ湁鏇村ぇ鐨勫嚭搴︼紝鎷ユ湁鏇村ソ鐨勬ц兘銆 -# 查询性能优化 +# 鏌ヨ鎬ц兘浼樺寲 ## 1. Explain -用来分析 SQL 语句,分析结果中比较重要的字段有: +鐢ㄦ潵鍒嗘瀽 SQL 璇彞锛屽垎鏋愮粨鏋滀腑姣旇緝閲嶈鐨勫瓧娈垫湁锛 -- select_type : 查询类型,有简单查询、联合查询和子查询 +- select_type : 鏌ヨ绫诲瀷锛屾湁绠鍗曟煡璇€佽仈鍚堟煡璇㈠拰瀛愭煡璇 -- key : 使用的索引 +- key : 浣跨敤鐨勭储寮 -- rows : 扫描的行数 +- rows : 鎵弿鐨勮鏁 -## 2. 减少返回的列 +## 2. 鍑忓皯杩斿洖鐨勫垪 -慢查询主要是因为访问了过多数据,除了访问过多行之外,也包括访问过多列。 +鎱㈡煡璇富瑕佹槸鍥犱负璁块棶浜嗚繃澶氭暟鎹紝闄や簡璁块棶杩囧琛屼箣澶栵紝涔熷寘鎷闂繃澶氬垪銆 -最好不要使用 SELECT * 语句,要根据需要选择查询的列。 +鏈濂戒笉瑕佷娇鐢 SELECT * 璇彞锛岃鏍规嵁闇瑕侀夋嫨鏌ヨ鐨勫垪銆 -## 3. 减少返回的行 +## 3. 鍑忓皯杩斿洖鐨勮 -最好使用 LIMIT 语句来取出想要的那些行。 +鏈濂戒娇鐢 LIMIT 璇彞鏉ュ彇鍑烘兂瑕佺殑閭d簺琛屻 -还可以建立索引来减少条件语句的全表扫描。例如对于下面的语句,不适用索引的情况下需要进行全表扫描,而使用索引只需要扫描几行记录即可,使用 Explain 语句可以通过观察 rows 字段来看出这种差异。 +杩樺彲浠ュ缓绔嬬储寮曟潵鍑忓皯鏉′欢璇彞鐨勫叏琛ㄦ壂鎻忋備緥濡傚浜庝笅闈㈢殑璇彞锛屼笉閫傜敤绱㈠紩鐨勬儏鍐典笅闇瑕佽繘琛屽叏琛ㄦ壂鎻忥紝鑰屼娇鐢ㄧ储寮曞彧闇瑕佹壂鎻忓嚑琛岃褰曞嵆鍙紝浣跨敤 Explain 璇彞鍙互閫氳繃瑙傚療 rows 瀛楁鏉ョ湅鍑鸿繖绉嶅樊寮傘 ```sql SELECT * FROM sakila.film_actor WHERE film_id = 1; ``` -## 4. 拆分大的 DELETE 或 INSERT 语句 +## 4. 鎷嗗垎澶х殑 DELETE 鎴 INSERT 璇彞 -如果一次性执行的话,可能一次锁住很多数据、占满整个事务日志、耗尽系统资源、阻塞很多小的但重要的查询。 +濡傛灉涓娆℃ф墽琛岀殑璇濓紝鍙兘涓娆¢攣浣忓緢澶氭暟鎹佸崰婊℃暣涓簨鍔℃棩蹇椼佽楀敖绯荤粺璧勬簮銆侀樆濉炲緢澶氬皬鐨勪絾閲嶈鐨勬煡璇€ ```sql DELEFT FROM messages WHERE create < DATE_SUB(NOW(), INTERVAL 3 MONTH); @@ -371,74 +349,74 @@ do { } while rows_affected > 0 ``` -# 分库与分表 +# 鍒嗗簱涓庡垎琛 -**1. 分表与分区的不同** +**1. 鍒嗚〃涓庡垎鍖虹殑涓嶅悓** -分表,就是讲一张表分成多个小表,这些小表拥有不同的表名;而分区是将一张表的数据分为多个区块,这些区块可以存储在同一个磁盘上,也可以存储在不同的磁盘上,这种方式下表仍然只有一个。 +鍒嗚〃锛屽氨鏄涓寮犺〃鍒嗘垚澶氫釜灏忚〃锛岃繖浜涘皬琛ㄦ嫢鏈変笉鍚岀殑琛ㄥ悕锛涜屽垎鍖烘槸灏嗕竴寮犺〃鐨勬暟鎹垎涓哄涓尯鍧楋紝杩欎簺鍖哄潡鍙互瀛樺偍鍦ㄥ悓涓涓鐩樹笂锛屼篃鍙互瀛樺偍鍦ㄤ笉鍚岀殑纾佺洏涓婏紝杩欑鏂瑰紡涓嬭〃浠嶇劧鍙湁涓涓 -**2. 使用分库与分表的原因** +**2. 浣跨敤鍒嗗簱涓庡垎琛ㄧ殑鍘熷洜** -随着时间和业务的发展,数据库中的表会越来越多,并且表中的数据量也会越来越大,那么读写操作的开销也会随着增大。 +闅忕潃鏃堕棿鍜屼笟鍔$殑鍙戝睍锛屾暟鎹簱涓殑琛ㄤ細瓒婃潵瓒婂锛屽苟涓旇〃涓殑鏁版嵁閲忎篃浼氳秺鏉ヨ秺澶э紝閭d箞璇诲啓鎿嶄綔鐨勫紑閿涔熶細闅忕潃澧炲ぇ銆 -**3. 垂直切分** +**3. 鍨傜洿鍒囧垎** -将表按功能模块、关系密切程度划分出来,部署到不同的库上。例如,我们会建立商品数据库 payDB、用户数据库 userDB 等,分别用来存储项目与商品有关的表和与用户有关的表。 +灏嗚〃鎸夊姛鑳芥ā鍧椼佸叧绯诲瘑鍒囩▼搴﹀垝鍒嗗嚭鏉ワ紝閮ㄧ讲鍒颁笉鍚岀殑搴撲笂銆備緥濡傦紝鎴戜滑浼氬缓绔嬪晢鍝佹暟鎹簱 payDB銆佺敤鎴锋暟鎹簱 userDB 绛夛紝鍒嗗埆鐢ㄦ潵瀛樺偍椤圭洰涓庡晢鍝佹湁鍏崇殑琛ㄥ拰涓庣敤鎴锋湁鍏崇殑琛ㄣ -**4. 水平切分** +**4. 姘村钩鍒囧垎** -把表中的数据按照某种规则存储到多个结构相同的表中,例如按 id 的散列值、性别等进行划分, +鎶婅〃涓殑鏁版嵁鎸夌収鏌愮瑙勫垯瀛樺偍鍒板涓粨鏋勭浉鍚岀殑琛ㄤ腑锛屼緥濡傛寜 id 鐨勬暎鍒楀笺佹у埆绛夎繘琛屽垝鍒嗭紝 -**5. 垂直切分与水平切分的选择** +**5. 鍨傜洿鍒囧垎涓庢按骞冲垏鍒嗙殑閫夋嫨** -如果数据库中的表太多,并且项目各项业务逻辑清晰,那么垂直切分是首选。 +濡傛灉鏁版嵁搴撲腑鐨勮〃澶锛屽苟涓旈」鐩悇椤逛笟鍔¢昏緫娓呮櫚锛岄偅涔堝瀭鐩村垏鍒嗘槸棣栭夈 -如果数据库的表不多,但是单表的数据量很大,应该选择水平切分。 +濡傛灉鏁版嵁搴撶殑琛ㄤ笉澶氾紝浣嗘槸鍗曡〃鐨勬暟鎹噺寰堝ぇ锛屽簲璇ラ夋嫨姘村钩鍒囧垎銆 -**6. 水平切分的实现方式** +**6. 姘村钩鍒囧垎鐨勫疄鐜版柟寮** -最简单的是使用 merge 存储引擎。 +鏈绠鍗曠殑鏄娇鐢 merge 瀛樺偍寮曟搸銆 -**7. 分库与分表存在的问题** +**7. 鍒嗗簱涓庡垎琛ㄥ瓨鍦ㄧ殑闂** -(1) 事务问题 +(1) 浜嬪姟闂 -在执行分库分表之后,由于数据存储到了不同的库上,数据库事务管理出现了困难。如果依赖数据库本身的分布式事务管理功能去执行事务,将付出高昂的性能代价;如果由应用程序去协助控制,形成程序逻辑上的事务,又会造成编程方面的负担。 +鍦ㄦ墽琛屽垎搴撳垎琛ㄤ箣鍚庯紝鐢变簬鏁版嵁瀛樺偍鍒颁簡涓嶅悓鐨勫簱涓婏紝鏁版嵁搴撲簨鍔$鐞嗗嚭鐜颁簡鍥伴毦銆傚鏋滀緷璧栨暟鎹簱鏈韩鐨勫垎甯冨紡浜嬪姟绠$悊鍔熻兘鍘绘墽琛屼簨鍔★紝灏嗕粯鍑洪珮鏄傜殑鎬ц兘浠d环锛涘鏋滅敱搴旂敤绋嬪簭鍘诲崗鍔╂帶鍒讹紝褰㈡垚绋嬪簭閫昏緫涓婄殑浜嬪姟锛屽張浼氶犳垚缂栫▼鏂归潰鐨勮礋鎷呫 -(2) 跨库跨表连接问题 +(2) 璺ㄥ簱璺ㄨ〃杩炴帴闂 -在执行了分库分表之后,难以避免会将原本逻辑关联性很强的数据划分到不同的表、不同的库上。这时,表的连接操作将受到限制,我们无法连接位于不同分库的表,也无法连接分表粒度不同的表,导致原本只需要一次查询就能够完成的业务需要进行多次才能完成。 +鍦ㄦ墽琛屼簡鍒嗗簱鍒嗚〃涔嬪悗锛岄毦浠ラ伩鍏嶄細灏嗗師鏈昏緫鍏宠仈鎬у緢寮虹殑鏁版嵁鍒掑垎鍒颁笉鍚岀殑琛ㄣ佷笉鍚岀殑搴撲笂銆傝繖鏃讹紝琛ㄧ殑杩炴帴鎿嶄綔灏嗗彈鍒伴檺鍒讹紝鎴戜滑鏃犳硶杩炴帴浣嶄簬涓嶅悓鍒嗗簱鐨勮〃锛屼篃鏃犳硶杩炴帴鍒嗚〃绮掑害涓嶅悓鐨勮〃锛屽鑷村師鏈彧闇瑕佷竴娆℃煡璇㈠氨鑳藉瀹屾垚鐨勪笟鍔¢渶瑕佽繘琛屽娆℃墠鑳藉畬鎴愩 -# 故障转移和故障恢复 +# 鏁呴殰杞Щ鍜屾晠闅滄仮澶 -故障转移也叫做切换,当主库出现故障时就切换到备库,使备库成为主库。故障恢复顾名思义就是从故障中恢复过来,并且保证数据的正确性。 +鏁呴殰杞Щ涔熷彨鍋氬垏鎹紝褰撲富搴撳嚭鐜版晠闅滄椂灏卞垏鎹㈠埌澶囧簱锛屼娇澶囧簱鎴愪负涓诲簱銆傛晠闅滄仮澶嶉【鍚嶆濅箟灏辨槸浠庢晠闅滀腑鎭㈠杩囨潵锛屽苟涓斾繚璇佹暟鎹殑姝g‘鎬с -## 1. 故障转移 +## 1. 鏁呴殰杞Щ -**1.1 提升备库或切换角色** +**1.1 鎻愬崌澶囧簱鎴栧垏鎹㈣鑹** -提升一台备库为主库,或者在一个主-主复制结构中调整主动和被动角色。 +鎻愬崌涓鍙板搴撲负涓诲簱锛屾垨鑰呭湪涓涓富-涓诲鍒剁粨鏋勪腑璋冩暣涓诲姩鍜岃鍔ㄨ鑹层 -**1.2 虚拟 IP 地址和 IP 托管** +**1.2 铏氭嫙 IP 鍦板潃鍜 IP 鎵樼** -为 MySQL 实例指定一个逻辑 IP 地址,当 MySQL 实例失效时,可以将 IP 地址转移到另一台 MySQL 服务器上。 +涓 MySQL 瀹炰緥鎸囧畾涓涓昏緫 IP 鍦板潃锛屽綋 MySQL 瀹炰緥澶辨晥鏃讹紝鍙互灏 IP 鍦板潃杞Щ鍒板彟涓鍙 MySQL 鏈嶅姟鍣ㄤ笂銆 -**1.3 中间件解决方案** +**1.3 涓棿浠惰В鍐虫柟妗** -通过代理,可以路由流量到可以使用的服务器上。 +閫氳繃浠g悊锛屽彲浠ヨ矾鐢辨祦閲忓埌鍙互浣跨敤鐨勬湇鍔″櫒涓娿 ![](https://github.com/CyC2018/InterviewNotes/blob/master/pics/fabd5fa0-b75e-48d0-9e2c-31471945ceb9.jpg) -**1.4 在应用中处理故障转移** +**1.4 鍦ㄥ簲鐢ㄤ腑澶勭悊鏁呴殰杞Щ** -将故障转移整合到应用中可能导致应用变得太过笨拙。 +灏嗘晠闅滆浆绉绘暣鍚堝埌搴旂敤涓彲鑳藉鑷村簲鐢ㄥ彉寰楀お杩囩鎷欍 -## 2. 故障恢复 +## 2. 鏁呴殰鎭㈠ -# 参考资料 +# 鍙傝冭祫鏂 -- 高性能 MySQL -- [MySQL 索引背后的数据结构及算法原理 ](http://blog.codinglabs.org/articles/theory-of-mysql-index.html) -- [MySQL 索引优化全攻略 ](http://www.runoob.com/w3cnote/mysql-index.html) -- [20+ 条 MySQL 性能优化的最佳经验 ](https://www.jfox.info/20-tiao-mysql-xing-nen-you-hua-de-zui-jia-jing-yan.html) +- 楂樻ц兘 MySQL +- [MySQL 绱㈠紩鑳屽悗鐨勬暟鎹粨鏋勫強绠楁硶鍘熺悊 ](http://blog.codinglabs.org/articles/theory-of-mysql-index.html) +- [MySQL 绱㈠紩浼樺寲鍏ㄦ敾鐣 ](http://www.runoob.com/w3cnote/mysql-index.html) +- [20+ 鏉 MySQL 鎬ц兘浼樺寲鐨勬渶浣崇粡楠 ](https://www.jfox.info/20-tiao-mysql-xing-nen-you-hua-de-zui-jia-jing-yan.html)