Details
-
New Feature
-
Status: Closed
-
Major
-
Resolution: Fixed
-
5.0.0
-
None
Description
设计目标
- Segment逻辑化:取消Segment管理索引数据的设定,Segment只保留逻辑概念
- 索引存储为表:根据索引类型的不同,设定不同的表类型,索引表化可以更好的利用查询引擎对于表处理的能力
- 索引存储类型可扩展:默认存储从Parquet替换为Delta Lake,同时可以支持Iceberg以及Hudi的快速替换
- 构建和查询的运行时参数动态调整:按照索引的特性,在运行时(构建和查询)动态调整执行引擎参数
- 查询效果的稳定:无论是早期还是近期数据,应该保持相对一致的查询性能
- 索引定向优化的能力:能够根据特定的查询,定向优化相对应的索引,能够对特定查询极致加速
存储格式的变化
原 Segment + parquet 存储
# V1 Cube结果数据文件结构 parquet/ └── dc65dd61-dbe3-8f46-7d44-668b688b96c1 (模型 ID) └── 12d2c4c1-248f-b1f8-0bdb-88b0eb9c8580 (Segment ID) ├── 1 (聚合索引ID) │ └── part-00000-393b8b08-84fc-40c6-8c2e-d579485dcc57-c000.snappy.parquet(数据) ├── 10001 ├── 20001 ├── 30001 ├── 40001 └── 20000000001(明细索引ID)
V3文件格式 - 数据由 delta lake 组织,以 Parquet 形式存储