数据库的查询执行计划中的延迟物化优化技术（Late Materialization）

字数 2675 2025-12-11 21:20:27

数据库的查询执行计划中的延迟物化优化技术（Late Materialization）

1. 知识点描述

延迟物化 是数据库查询执行（尤其是在列式存储或混合存储系统中）中的一种关键优化技术。其核心思想是：在查询处理过程中，尽可能延迟对行数据的“物化”（即从底层存储格式重构出完整的行记录），只在最后必须输出完整行时（例如，执行连接、需要返回SELECT列表中的所有列、或进行最终排序时）才进行重构。这项技术通常与列式存储架构深度结合，旨在最大限度地减少不必要的数据移动和CPU计算，从而提升查询性能。

简单来说，传统的“早期物化”是在查询一开始就从存储中读取所有需要的列，立即拼成完整的行，再在这些行上进行过滤、聚合等操作。而“延迟物化”是先将操作（如过滤）在单列上进行，只记录满足条件的行位置信息（如行ID列表），最后再用这些位置信息去提取其他所需的列数据，拼出最终结果行。

2. 为什么需要延迟物化？

I/O效率：在列式存储中，数据按列而非按行存储。如果查询只需要表中少数几列，但过滤条件涉及其中一列，传统方式需要读取所有涉及的列的全部数据（早期物化）。而延迟物化可以先只读取过滤条件所在列的数据，在内存中快速计算出满足条件的行位置，然后再精准读取其他所需列的对应行数据，避免了读取大量不满足条件的行中的其他列数据。
CPU缓存友好：在单个列上进行操作（如比较、计算），数据是连续且类型一致的，能更好地利用CPU缓存和向量化指令（SIMD），执行效率远高于在结构复杂的行数据上操作。
减少中间结果大小：在过滤后，传递的中间结果不是完整的行，而是行ID列表或位图。这个列表通常比完整的行数据小得多，减少了内存占用和在操作符间传递的数据量。

3. 核心工作原理与步骤

让我们通过一个具体的查询示例，详细拆解延迟物化的执行过程。

示例查询：

SELECT name, department, salary
FROM employees
WHERE salary > 100000 AND hire_date > '2020-01-01';

假设employees表采用列式存储，有emp_id、name、department、salary、hire_date等列。

步骤1：列扫描与过滤（在单列上操作）

执行器不会一开始就去读取name， department， salary这三列的全部数据。
它会先读取过滤条件涉及的列：salary列和hire_date列。
分别在salary列上计算salary > 100000，在hire_date列上计算hire_date > '2020-01-01'。每个条件都会生成一个位图，其中每一位对应表中的一个行位置（如行号），1表示该行的此列满足条件，0表示不满足。
例如：
- salary过滤后位图：110010... （假设第1，2，5行满足条件）
- hire_date过滤后位图：101010... （假设第1，3，5行满足条件）

步骤2：位置合并

将两个过滤条件产生的位图进行按位与操作，得到最终的合格行位置位图。
最终位图：100010... （这表示只有第1行和第5行同时满足两个条件）。
此时，我们得到的是一个非常紧凑的、表示哪些行符合要求的位置信息集合，而不是包含name， department， salary等数据的具体行。

步骤3：延迟访问与物化

现在我们知道了只需要第1行和第5行的数据。
执行器再根据这个最终的位置位图，去精准地访问SELECT子句中需要的其他列：name列和department列（salary列在过滤时已读取，可复用）。
它从name列存储中提取第1个和第5个值，从department列存储中提取第1个和第5个值。salary列也提取对应位置的值。
只有在这一步，执行器才将这些从不同列提取出来的、属于同一行的值“组装”成最终的结果行。例如，组装出第1行：(name_1, dept_1, salary_1)，和第5行：(name_5, dept_5, salary_5)。

步骤4：输出结果

将组装好的完整行结果集返回给客户端。

4. 与早期物化的对比

特性	早期物化	延迟物化
处理单元	以行为单元进行读取和传递。	先以列为单元处理，最后再组装行。
I/O	可能读取不需要的列数据（如果该行最终被过滤掉）。	先通过过滤列减少行数，再精确读取所需列，I/O更少。
CPU缓存	行结构复杂，缓存效率较低。	对单列连续数据操作，缓存和向量化效率高。
中间结果	是包含所有列数据的完整行，体积大。	是行位置（位图/列表），体积小。
适用场景	行式存储，或需要立即返回大部分列的查询。	列式存储，或查询中过滤条件能过滤掉大量行，且SELECT子句只需少数列的场景。

5. 技术的优势与限制

优势：

显著减少I/O：这是最主要优点，尤其在分析型查询中，过滤条件通常能过滤掉90%以上的数据，延迟物化避免了读取这些被过滤数据的其他列。
提升CPU效率：列式操作便于使用向量化处理，单指令处理多数据。
降低内存压力：中间结果小，可以处理更大的数据集。

限制与代价：

物化开销：最后组装行时有一个“物化”步骤，这需要开销。如果最终合格的行数非常多（比如过滤条件无效，几乎所有行都选中），那么延迟物化反而可能不如早期物化高效，因为早期物化是流式组装，而延迟物化需要先收集位置再随机访问组装，随机访问成本较高。
点查询不友好：对于按主键查询单行记录的点查询，延迟物化的优势很小，因为无论如何都需要读取该行的所有请求列。
实现复杂性：查询执行引擎需要能够处理并传递行位置信息（位图），并支持基于位置的列数据随机访问，这增加了引擎设计的复杂度。

6. 总结

延迟物化是一种深度结合存储模型的查询执行优化策略。它改变了“先组装行，再处理行”的传统流程，转变为“先处理列，过滤出行位置，最后按需组装行”。这项技术在以分析查询为主的列式数据库（如Vertica， ClickHouse， Amazon Redshift， Google BigQuery等）中至关重要，是其高性能的基石之一。理解延迟物化，有助于我们更好地设计表结构、编写高效的查询语句，并理解为何在某些场景下列式存储的性能远超行式存储。

数据库的查询执行计划中的延迟物化优化技术（Late Materialization） 1. 知识点描述延迟物化是数据库查询执行（尤其是在列式存储或混合存储系统中）中的一种关键优化技术。其核心思想是：在查询处理过程中，尽可能延迟对行数据的“物化”（即从底层存储格式重构出完整的行记录），只在最后必须输出完整行时（例如，执行连接、需要返回SELECT列表中的所有列、或进行最终排序时）才进行重构。这项技术通常与列式存储架构深度结合，旨在最大限度地减少不必要的数据移动和CPU计算，从而提升查询性能。简单来说，传统的“早期物化”是在查询一开始就从存储中读取所有需要的列，立即拼成完整的行，再在这些行上进行过滤、聚合等操作。而“延迟物化”是先将操作（如过滤）在单列上进行，只记录满足条件的行位置信息（如行ID列表），最后再用这些位置信息去提取其他所需的列数据，拼出最终结果行。 2. 为什么需要延迟物化？ I/O效率：在列式存储中，数据按列而非按行存储。如果查询只需要表中少数几列，但过滤条件涉及其中一列，传统方式需要读取所有涉及的列的全部数据（早期物化）。而延迟物化可以先只读取过滤条件所在列的数据，在内存中快速计算出满足条件的行位置，然后再精准读取其他所需列的对应行数据，避免了读取大量不满足条件的行中的其他列数据。 CPU缓存友好：在单个列上进行操作（如比较、计算），数据是连续且类型一致的，能更好地利用CPU缓存和向量化指令（SIMD），执行效率远高于在结构复杂的行数据上操作。减少中间结果大小：在过滤后，传递的中间结果不是完整的行，而是行ID列表或位图。这个列表通常比完整的行数据小得多，减少了内存占用和在操作符间传递的数据量。 3. 核心工作原理与步骤让我们通过一个具体的查询示例，详细拆解延迟物化的执行过程。示例查询：假设 employees 表采用列式存储，有 emp_id 、 name 、 department 、 salary 、 hire_date 等列。步骤1：列扫描与过滤（在单列上操作）执行器不会一开始就去读取 name ， department ， salary 这三列的全部数据。它会先读取过滤条件涉及的列： salary 列和 hire_date 列。分别在 salary 列上计算 salary > 100000 ，在 hire_date 列上计算 hire_date > '2020-01-01' 。每个条件都会生成一个位图，其中每一位对应表中的一个行位置（如行号），1表示该行的此列满足条件，0表示不满足。例如： salary 过滤后位图： 110010... （假设第1，2，5行满足条件） hire_date 过滤后位图： 101010... （假设第1，3，5行满足条件）步骤2：位置合并将两个过滤条件产生的位图进行按位与操作，得到最终的合格行位置位图。最终位图： 100010... （这表示只有第1行和第5行同时满足两个条件）。此时，我们得到的是一个非常紧凑的、表示哪些行符合要求的位置信息集合，而不是包含 name ， department ， salary 等数据的具体行。步骤3：延迟访问与物化现在我们知道了只需要第1行和第5行的数据。执行器再根据这个最终的位置位图，去精准地访问 SELECT子句中需要的其他列： name 列和 department 列（ salary 列在过滤时已读取，可复用）。它从 name 列存储中提取第1个和第5个值，从 department 列存储中提取第1个和第5个值。 salary 列也提取对应位置的值。只有在这一步，执行器才将这些从不同列提取出来的、属于同一行的值“组装”成最终的结果行。例如，组装出第1行： (name_1, dept_1, salary_1) ，和第5行： (name_5, dept_5, salary_5) 。步骤4：输出结果将组装好的完整行结果集返回给客户端。 4. 与早期物化的对比 | 特性 | 早期物化 | 延迟物化 | | :--- | :--- | :--- | | 处理单元 | 以行为单元进行读取和传递。 | 先以列为单元处理，最后再组装行。 | | I/O | 可能读取不需要的列数据（如果该行最终被过滤掉）。 | 先通过过滤列减少行数，再精确读取所需列，I/O更少。 | | CPU缓存 | 行结构复杂，缓存效率较低。 | 对单列连续数据操作，缓存和向量化效率高。 | | 中间结果 | 是包含所有列数据的完整行，体积大。 | 是行位置（位图/列表），体积小。 | | 适用场景 | 行式存储，或需要立即返回大部分列的查询。 | 列式存储，或查询中过滤条件能过滤掉大量行，且 SELECT子句只需少数列的场景。 | 5. 技术的优势与限制优势：显著减少I/O ：这是最主要优点，尤其在分析型查询中，过滤条件通常能过滤掉90%以上的数据，延迟物化避免了读取这些被过滤数据的其他列。提升CPU效率：列式操作便于使用向量化处理，单指令处理多数据。降低内存压力：中间结果小，可以处理更大的数据集。限制与代价：物化开销：最后组装行时有一个“物化”步骤，这需要开销。如果最终合格的行数非常多（比如过滤条件无效，几乎所有行都选中），那么延迟物化反而可能不如早期物化高效，因为早期物化是流式组装，而延迟物化需要先收集位置再随机访问组装，随机访问成本较高。点查询不友好：对于按主键查询单行记录的点查询，延迟物化的优势很小，因为无论如何都需要读取该行的所有请求列。实现复杂性：查询执行引擎需要能够处理并传递行位置信息（位图），并支持基于位置的列数据随机访问，这增加了引擎设计的复杂度。 6. 总结延迟物化是一种深度结合存储模型的查询执行优化策略。它改变了“先组装行，再处理行”的传统流程，转变为“先处理列，过滤出行位置，最后按需组装行”。这项技术在以分析查询为主的列式数据库（如Vertica， ClickHouse， Amazon Redshift， Google BigQuery等）中至关重要，是其高性能的基石之一。理解延迟物化，有助于我们更好地设计表结构、编写高效的查询语句，并理解为何在某些场景下列式存储的性能远超行式存储。