Nessie 目录
与 Nessie Catalog 的集成仅适用于 Iceberg 表。 此集成支持 AWS S3 以及其他云存储服务提供商。
ClickHouse 支持与多个 catalog 集成(Unity、Glue、REST、Polaris 等)。本指南将引导您完成使用 ClickHouse 和 Nessie catalog 查询数据的步骤。
Nessie 是一个面向数据湖的开源事务型 catalog,提供:
- 类 Git 风格的 分支与提交式数据版本控制
- 跨表事务 与可见性保证
- REST API,符合 Iceberg REST catalog 规范
- 开放数据湖 方案,支持 Hive、Spark、Dremio、Trino 等
- 可在 Docker 或 Kubernetes 上进行 生产就绪 的部署
由于该功能目前为实验特性,您需要通过以下命令启用:
SET allow_experimental_database_iceberg = 1;
本地开发环境设置
在进行本地开发和测试时,你可以使用容器化的 Nessie 环境。此方式非常适合用于学习、原型验证以及开发环境。
前提条件
- Docker 和 Docker Compose:确保已安装 Docker 并已启动运行
- 示例环境:可以使用官方提供的 Nessie docker-compose 配置
设置本地 Nessie Catalog
你可以使用官方提供的 Nessie docker-compose 部署,它提供了一个完整的环境,包括 Nessie、内存版本存储(in-memory version store)以及用于对象存储的 MinIO。
步骤 1: 创建一个新文件夹用于运行该示例,然后创建一个名为 docker-compose.yml 的文件,并填入以下配置:
步骤 2: 运行以下命令启动服务:
步骤 3: 等待所有服务就绪。您可以通过查看日志进行检查:
Nessie 设置使用基于内存的版本存储,并要求先将示例数据加载到 Iceberg 表中。请确保在通过 ClickHouse 查询这些表之前,环境中已经创建并填充好这些表。
连接到本地 Nessie Catalog
连接到 ClickHouse 容器:
然后创建与 Nessie 目录的数据库连接:
使用 ClickHouse 查询 Nessie 目录表
现在连接已就绪,您可以开始通过 Nessie 目录执行查询。例如:
如果你的环境包含示例数据(例如 taxi 数据集),应该能看到如下所示的表:
如果没有看到任何数据表,通常意味着:
- 环境尚未创建示例表
- Nessie 目录服务尚未完全初始化
- 示例数据加载流程尚未完成
可以查看 Nessie 日志以了解目录的活动情况:
要查询某个表(如果已存在):
需要使用反引号,因为 ClickHouse 仅支持单一命名空间。
要检查该表的 DDL:
将数据湖中的数据加载到 ClickHouse
如果需要将 Nessie 目录中的数据加载到 ClickHouse,请首先创建一个本地 ClickHouse 表:
然后通过 INSERT INTO ... SELECT 语句从 Nessie 目录表中加载数据: