資料量大了一定要分表，分庫分表Sharding-JDBC入門與專案實戰

作者：由小知發表于歷史時間：2020-08-27

最近專案中不少表的資料量越來越大，並且導致了一些資料庫的效能問題。因此想借助一些分庫分表的中介軟體，實現自動化分庫分表實現。調研下來，發現Sharding-JDBC目前成熟度最高並且應用最廣的Java分庫分表的客戶端元件。

本文主要介紹一些Sharding-JDBC核心概念以及生產環境下的實戰指南，旨在幫助組內成員快速瞭解Sharding-JDBC並且能夠快速將其使用起來。

核心概念

在使用Sharding-JDBC之前，一定是先理解清楚下面幾個核心概念。

邏輯表

水平拆分的資料庫（表）的相同邏輯和資料結構表的總稱。例：訂單資料根據主鍵尾數拆分為10張表，分別是t_order_0到t_order_9，他們的邏輯表名為t_order。

真實表

在分片的資料庫中真實存在的物理表。即上個示例中的t_order_0到t_order_9。

資料節點

資料分片的最小單元。由資料來源名稱和資料表組成，例：ds_0。t_order_0。

繫結表

指分片規則一致的主表和子表。例如：t_order表和t_order_item表，均按照order_id分片，則此兩張表互為繫結表關係。繫結表之間的多表關聯查詢不會出現笛卡爾積關聯，關聯查詢效率將大大提升。

舉例說明，如果SQL為：

SELECT i。* FROM t_order o JOIN t_order_item i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

假設t_order和t_order_item對應的真實表各有2個，那麼真實表就有t_order_0、t_order_1、t_order_item_0、t_order_item_1。

在不配置繫結表關係時，假設分片鍵order_id將數值10路由至第0片，將數值11路由至第1片，那麼路由後的SQL應該為4條，它們呈現為笛卡爾積：

SELECT i。* FROM t_order_0 o JOIN t_order_item_0 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

SELECT i。* FROM t_order_0 o JOIN t_order_item_1 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

SELECT i。* FROM t_order_1 o JOIN t_order_item_0 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

SELECT i。* FROM t_order_1 o JOIN t_order_item_1 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

在配置繫結表關係後，路由的SQL應該為2條：

SELECT i。* FROM t_order_0 o JOIN t_order_item_0 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

SELECT i。* FROM t_order_1 o JOIN t_order_item_1 i ON o。order_id=i。order_id WHERE o。order_id in （10， 11）；

廣播表

指所有的分片資料來源中都存在的表，表結構和表中的資料在每個資料庫中均完全一致。適用於資料量不大且需要與海量資料的表進行關聯查詢的場景，例如：字典表。

資料分片

分片鍵

用於分片的資料庫欄位，是將資料庫（表）水平拆分的關鍵欄位。例：將訂單表中的訂單主鍵的尾數取模分片，則訂單主鍵為分片欄位。SQL 中如果無分片欄位，將執行全路由，效能較差。除了對單分片欄位的支援，Sharding-JDBC 也支援根據多個欄位進行分片。

分片演算法

透過分片演算法將資料分片，支援透過=、>=、<=、>、<、BETWEEN和IN分片。分片演算法需要應用方開發者自行實現，可實現的靈活度非常高。

目前提供4種分片演算法。由於分片演算法和業務實現緊密相關，因此並未提供內建分片演算法，而是透過分片策略將各種場景提煉出來，提供更高層級的抽象，並提供介面讓應用開發者自行實現分片演算法。

精確分片演算法

對應 PreciseShardingAlgorithm，用於處理使用單一鍵作為分片鍵的 = 與 IN 進行分片的場景。需要配合 StandardShardingStrategy 使用。

範圍分片演算法

對應 RangeShardingAlgorithm，用於處理使用單一鍵作為分片鍵的 BETWEEN AND、>、<、>=、<=進行分片的場景。需要配合 StandardShardingStrategy 使用。

複合分片演算法

對應 ComplexKeysShardingAlgorithm，用於處理使用多鍵作為分片鍵進行分片的場景，包含多個分片鍵的邏輯較複雜，需要應用開發者自行處理其中的複雜度。需要配合 ComplexShardingStrategy 使用。

Hint分片演算法

對應 HintShardingAlgorithm，用於處理透過Hint指定分片值而非從SQL中提取分片值的場景。需要配合 HintShardingStrategy 使用。

分片策略

包含分片鍵和分片演算法，由於分片演算法的獨立性，將其獨立抽離。真正可用於分片操作的是分片鍵 + 分片演算法，也就是分片策略。目前提供 5 種分片策略。

標準分片策略

對應 StandardShardingStrategy。提供對 SQ L語句中的 =， >， <， >=， <=， IN 和 BETWEEN AND 的分片操作支援。StandardShardingStrategy 只支援單分片鍵，提供 PreciseShardingAlgorithm 和 RangeShardingAlgorithm 兩個分片演算法。

PreciseShardingAlgorithm 是必選的，用於處理 = 和 IN 的分片。RangeShardingAlgorithm 是可選的，用於處理 BETWEEN AND， >， <， >=， <=分片，如果不配置 RangeShardingAlgorithm，SQL 中的 BETWEEN AND 將按照全庫路由處理。

複合分片策略

對應 ComplexShardingStrategy。複合分片策略。提供對 SQL 語句中的 =， >， <， >=， <=， IN 和 BETWEEN AND 的分片操作支援。ComplexShardingStrategy 支援多分片鍵，由於多分片鍵之間的關係複雜，因此並未進行過多的封裝，而是直接將分片鍵值組合以及分片運算子透傳至分片演算法，完全由應用開發者實現，提供最大的靈活度。

行表示式分片策略

對應 InlineShardingStrategy。使用 Groovy 的表示式，提供對 SQL 語句中的 = 和 IN的分片操作支援，只支援單分片鍵。對於簡單的分片演算法，可以透過簡單的配置使用，從而避免繁瑣的Java程式碼開發，如： t_user_$->{u_id % 8} 表示 t_user 表根據 u_id 模 8，而分成 8 張表，表名稱為 t_user_0 到 t_user_7。可以認為是精確分片演算法的簡易實現

Hint分片策略

對應 HintShardingStrategy。透過 Hint 指定分片值而非從 SQL 中提取分片值的方式進行分片的策略。

分散式主鍵

用於在分散式環境下，生成全域性唯一的id。Sharding-JDBC 提供了內建的分散式主鍵生成器，例如 UUID、SNOWFLAKE。還抽離出分散式主鍵生成器的介面，方便使用者自行實現自定義的自增主鍵生成器。為了保證資料庫效能，主鍵id還必須趨勢遞增，避免造成頻繁的資料頁面分裂。

讀寫分離

提供一主多從的讀寫分離配置，可獨立使用，也可配合分庫分表使用。

同一執行緒且同一資料庫連線內，如有寫入操作，以後的讀操作均從主庫讀取，用於保證資料一致性

基於Hint的強制主庫路由。

主從模型中，事務中讀寫均用主庫。

執行流程

Sharding-JDBC 的原理總結起來很簡單：核心由 SQL解析 => 執行器最佳化 => SQL路由 => SQL改寫 => SQL執行 => 結果歸併的流程組成。

專案實戰

spring-boot專案實戰

引入依賴

org。apache。shardingsphere

sharding-jdbc-spring-boot-starter

4。0。1

資料來源配置

如果使用sharding-jdbc-spring-boot-starter，並且資料來源以及資料分片都使用shardingsphere進行配置，對應的資料來源會自動建立並注入到spring容器中。

spring。shardingsphere。datasource。names=ds0，ds1

spring。shardingsphere。datasource。ds0。type=org。apache。commons。dbcp。BasicDataSource

spring。shardingsphere。datasource。ds0。driver-class-name=com。mysql。jdbc。Driver

spring。shardingsphere。datasource。ds0。url=jdbc：mysql：//localhost：3306/ds0

spring。shardingsphere。datasource。ds0。username=root

spring。shardingsphere。datasource。ds0。password=

spring。shardingsphere。datasource。ds1。type=org。apache。commons。dbcp。BasicDataSource

spring。shardingsphere。datasource。ds1。driver-class-name=com。mysql。jdbc。Driver

spring。shardingsphere。datasource。ds1。url=jdbc：mysql：//localhost：3306/ds1

spring。shardingsphere。datasource。ds1。username=root

spring。shardingsphere。datasource。ds1。password=

# 其它分片配置

但是在我們已有的專案中，資料來源配置是單獨的。因此要禁用sharding-jdbc-spring-boot-starter裡面的自動裝配，而是參考原始碼自己重寫資料來源配置。

需要在啟動類上加上@SpringBootApplication（exclude = {org。apache。shardingsphere。shardingjdbc。spring。boot。SpringBootConfiguration。class}）來排除。然後自定義配置類來裝配DataSource。

@Configuration

@Slf4j

@EnableConfigurationProperties（{

SpringBootShardingRuleConfigurationProperties。class，

SpringBootMasterSlaveRuleConfigurationProperties。class， SpringBootEncryptRuleConfigurationProperties。class， SpringBootPropertiesConfigurationProperties。class}）

@AutoConfigureBefore（DataSourceConfiguration。class）

public class DataSourceConfig implements ApplicationContextAware {

@Autowired

private SpringBootShardingRuleConfigurationProperties shardingRule；

@Autowired

private SpringBootPropertiesConfigurationProperties props；

private ApplicationContext applicationContext；

@Bean（“shardingDataSource”）

@Conditional（ShardingRuleCondition。class）

public DataSource shardingDataSource（） throws SQLException {

// 獲取其它方式配置的資料來源

Map beans = applicationContext。getBeansOfType（DruidDataSourceWrapper。class）；

Map dataSourceMap = new HashMap<>（4）；

beans。forEach（dataSourceMap：：put）；

// 建立shardingDataSource

return ShardingDataSourceFactory。createDataSource（dataSourceMap， new ShardingRuleConfigurationYamlSwapper（）。swap（shardingRule）， props。getProps（））；

}

@Bean

public SqlSessionFactory sqlSessionFactory（） throws SQLException {

SqlSessionFactoryBean sqlSessionFactoryBean = new SqlSessionFactoryBean（）；

// 將shardingDataSource設定到SqlSessionFactory中

sqlSessionFactoryBean。setDataSource（shardingDataSource（））；

// 其它設定

return sqlSessionFactoryBean。getObject（）；

}

分散式id生成器配置

Sharding-JDBC提供了UUID、SNOWFLAKE生成器，還支援使用者實現自定義id生成器。比如可以實現了type為SEQ的分散式id生成器，呼叫統一的分散式id服務獲取id。

@Data

public class SeqShardingKeyGenerator implements ShardingKeyGenerator {

private Properties properties = new Properties（）；

@Override

public String getType（） {

return “SEQ”；

}

@Override

public synchronized Comparable<？> generateKey（） {

// 獲取分散式id邏輯

}

由於擴充套件ShardingKeyGenerator是透過JDK的serviceloader的SPI機制實現的，因此還需要在resources/META-INF/services目錄下配置org。apache。shardingsphere。spi。keygen。ShardingKeyGenerator檔案。

檔案內容就是SeqShardingKeyGenerator類的全路徑名。這樣使用的時候，指定分散式主鍵生成器的type為SEQ就好了。

至此，Sharding-JDBC就整合進spring-boot專案中了，後面就可以進行資料分片相關的配置了。

資料分片實戰

如果專案初期就能預估出表的資料量級，當然可以一開始就按照這個預估值進行分庫分表處理。但是大多數情況下，我們一開始並不能準備預估出數量級。這時候通常的做法是：

線上資料某張表查詢效能開始下降，排查下來是因為資料量過大導致的。

根據歷史資料量預估出未來的資料量級，並結合具體業務場景確定分庫分表策略。

自動分庫分表程式碼實現。

下面就以一個具體事例，闡述具體資料分片實戰。比如有張表資料結構如下：

CREATE TABLE `hc_question_reply_record` （

`id` bigint NOT NULL AUTO_INCREMENT COMMENT ‘自增ID’，

`reply_text` varchar（500） NOT NULL DEFAULT ‘’ COMMENT ‘回覆內容’，

`reply_wheel_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT ‘回覆時間’，

`ctime` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT ‘建立時間’，

`mtime` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT ‘更新時間’，

PRIMARY KEY （`id`），

INDEX `idx_reply_wheel_time` （`reply_wheel_time`）

） ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci

COMMENT=‘回覆明細記錄’；

分片方案確定

先查詢目前目標表月新增趨勢：

SELECT count（*）， date_format（ctime， ‘%Y-%m’） AS `日期`

FROM hc_question_reply_record

GROUP BY date_format（ctime， ‘%Y-%m’）；

目前月新增在180w左右，預估未來達到300w（基本以2倍計算）以上。期望單表資料量不超過1000w，可使用reply_wheel_time作為分片鍵按季度歸檔。

分片配置

spring：

# sharing-jdbc配置

shardingsphere：

# 資料來源名稱

datasource：

names： defaultDataSource，slaveDataSource

sharding：

# 主從節點配置

master-slave-rules：

defaultDataSource：

# maser資料來源

master-data-source-name： defaultDataSource

# slave資料來源

slave-data-source-names： slaveDataSource

tables：

# hc_question_reply_record 分庫分表配置

hc_question_reply_record：

# 真實資料節點 hc_question_reply_record_2020_q1

actual-data-nodes： defaultDataSource。hc_question_reply_record_$->{2020。。2025}_q$->{1。。4}

# 表分片策略

table-strategy：

standard：

# 分片鍵

sharding-column： reply_wheel_time

# 精確分片演算法全路徑名

preciseAlgorithmClassName： com。xx。QuestionRecordPreciseShardingAlgorithm

# 範圍分片演算法，用於BETWEEN，可選。。該類需實現RangeShardingAlgorithm介面並提供無引數的構造器

rangeAlgorithmClassName： com。xx。QuestionRecordRangeShardingAlgorithm

# 預設分散式id生成器

default-key-generator：

type： SEQ

column： id

分片演算法實現

精確分片演算法：QuestionRecordPreciseShardingAlgorithm

public class QuestionRecordPreciseShardingAlgorithm implements PreciseShardingAlgorithm {

/**

* Sharding。

* @param availableTargetNames available data sources or tables‘s names

* @param shardingValue sharding value

* @return sharding result for data source or table’s name

@Override

public String doSharding（Collection availableTargetNames， PreciseShardingValue shardingValue） {

return ShardingUtils。quarterPreciseSharding（availableTargetNames， shardingValue）；

}

範圍分片演算法：QuestionRecordRangeShardingAlgorithm

public class QuestionRecordRangeShardingAlgorithm implements RangeShardingAlgorithm {

/**

* Sharding。

* @param availableTargetNames available data sources or tables‘s names

* @param shardingValue sharding value

* @return sharding results for data sources or tables’s names

@Override

public Collection doSharding（Collection availableTargetNames， RangeShardingValue shardingValue） {

return ShardingUtils。quarterRangeSharding（availableTargetNames， shardingValue）；

}

具體分片實現邏輯：ShardingUtils

@UtilityClass

public class ShardingUtils {

public static final String QUARTER_SHARDING_PATTERN = “%s_%d_q%d”；

/**

* logicTableName_{year}_q{quarter}

* 按季度範圍分片

* @param availableTargetNames 可用的真實表集合

* @param shardingValue 分片值

* @return

public Collection quarterRangeSharding（Collection availableTargetNames， RangeShardingValue shardingValue） {

// 這裡就是根據範圍查詢條件，篩選出匹配的真實表集合

}

/**

* logicTableName_{year}_q{quarter}

* 按季度精確分片

* @param availableTargetNames 可用的真實表集合

* @param shardingValue 分片值

* @return

public static String quarterPreciseSharding（Collection availableTargetNames， PreciseShardingValue shardingValue） {

// 這裡就是根據等值查詢條件，計算出匹配的真實表

}

到這裡，針對hc_question_reply_record表，使用reply_wheel_time作為分片鍵，按照季度分片的處理就完成了。還有一點要注意的就是，分庫分表之後，查詢的時候最好都帶上分片鍵作為查詢條件，否則就會使用全庫路由，效能很低。

還有就是Sharing-JDBC對mysql的全文索引支援的不是很好，專案有使用到的地方也要注意一下。總結來說整個過程還是比較簡單的，後續碰到其它業務場景，相信大家按照這個思路肯定都能解決的。

原文：

https：//

juejin。im/post/68449041

82365814797

標簽：分片 Order id 演算法 shardingsphere

上一篇:一文看懂.NET ORM 分表分庫

下一篇：redux middleware 詳解

資料量大了一定要分表，分庫分表Sharding-JDBC入門與專案實戰

猜你喜歡

催單的英文郵件怎麼寫？抓住放假前的最後機會

資料分析商業報告例項

Elasticsearch 分散式原理以及相關讀寫邏輯

求印象中陳奕迅的一首歌，有國粵雙版的？

認認真真寫個分享貼---關於純白地獄拼圖（日版）1000p完坑攻略。

資料量大了一定要分表，分庫分表Sharding-JDBC入門與專案實戰

猜你喜歡

催單的英文郵件怎麼寫？抓住放假前的 最後機會

資料分析商業報告例項

Elasticsearch 分散式原理以及相關讀寫邏輯

求印象中陳奕迅的一首歌，有國粵雙版的？

認認真真寫個分享貼---關於純白地獄拼圖（日版）1000p完坑攻略。

催單的英文郵件怎麼寫？抓住放假前的最後機會