Uploaded image for project: 'Kylin'
  1. Kylin
  2. KYLIN-5949

Support DeltaLake as Index storage

VotersWatch issueWatchersLinkCloneUpdate Comment AuthorReplace String in CommentUpdate Comment VisibilityDelete Comments
    XMLWordPrintableJSON

Details

    • New Feature
    • Status: Closed
    • Major
    • Resolution: Fixed
    • 5.0.0
    • 5.0.0
    • Job Engine, Query Engine
    • None

    Description

      设计目标

      1. Segment逻辑化:取消Segment管理索引数据的设定,Segment只保留逻辑概念
      2. 索引存储为表:根据索引类型的不同,设定不同的表类型,索引表化可以更好的利用查询引擎对于表处理的能力
      3. 索引存储类型可扩展:默认存储从Parquet替换为Delta Lake,同时可以支持Iceberg以及Hudi的快速替换
      4. 构建和查询的运行时参数动态调整:按照索引的特性,在运行时(构建和查询)动态调整执行引擎参数
      5. 查询效果的稳定:无论是早期还是近期数据,应该保持相对一致的查询性能
      6. 索引定向优化的能力:能够根据特定的查询,定向优化相对应的索引,能够对特定查询极致加速

      存储格式的变化

      原 Segment +  parquet 存储

      # V1 Cube结果数据文件结构
      parquet/
      └── dc65dd61-dbe3-8f46-7d44-668b688b96c1 (模型 ID)
          └── 12d2c4c1-248f-b1f8-0bdb-88b0eb9c8580 (Segment ID)
              ├── 1 (聚合索引ID)
              │   └── part-00000-393b8b08-84fc-40c6-8c2e-d579485dcc57-c000.snappy.parquet(数据)
              ├── 10001
              ├── 20001
              ├── 30001
              ├── 40001
              └── 20000000001(明细索引ID)

      V3文件格式 - 数据由 delta lake 组织,以 Parquet 形式存储

       

       

       

      Attachments

        1. image.png
          955 kB
          Zhimin Wu
        2. image-2024-08-05-17-48-53-286.png
          955 kB
          Zhimin Wu

        Activity

          This comment will be Viewable by All Users Viewable by All Users
          Cancel

          People

            Jueyi Zhimin Wu
            pfzhan Pengfei Zhan
            Votes:
            0 Vote for this issue
            Watchers:
            3 Start watching this issue

            Dates

              Created:
              Updated:
              Resolved:

              Slack

                Issue deployment