DataLakeCatalog
DataLakeCatalog 数据库引擎使您能够将 ClickHouse 连接到外部数据目录,并在无需复制数据的情况下查询开放表格式数据。
这使 ClickHouse 成为一个功能强大的查询引擎,能够与您现有的数据湖基础设施无缝协同工作。
支持的目录
DataLakeCatalog 引擎支持以下数据目录:
- AWS Glue Catalog - 用于 AWS 环境中的 Iceberg 表
- Databricks Unity Catalog - 用于 Delta Lake 和 Iceberg 表
- Hive Metastore - 传统 Hadoop 生态系统中的目录
- REST Catalogs - 任意支持 Iceberg REST 规范的目录
创建数据库
要使用 DataLakeCatalog 引擎,需要启用下列相关设置:
可以使用以下语法创建使用 DataLakeCatalog 引擎的数据库:
支持以下设置:
| Setting | Description |
|---|---|
catalog_type | 目录类型:glue、unity(Delta)、rest(Iceberg)、hive、onelake(Iceberg) |
warehouse | 在目录中使用的仓库 / 数据库名称。 |
catalog_credential | 目录的认证凭证(例如 API key 或 token) |
auth_header | 用于与目录服务进行认证的自定义 HTTP 请求头 |
auth_scope | 用于认证的 OAuth2 范围(scope)(如果使用 OAuth) |
storage_endpoint | 底层存储的端点 URL |
oauth_server_uri | 用于认证的 OAuth2 授权服务器 URI |
vended_credentials | 布尔值,指示是否使用由服务下发的凭证(vended credentials,AWS 特定) |
aws_access_key_id | 用于访问 S3/Glue 的 AWS access key ID(如果不使用 vended credentials) |
aws_secret_access_key | 用于访问 S3/Glue 的 AWS secret access key(如果不使用 vended credentials) |
region | 服务所在的 AWS 区域(例如 us-east-1) |
示例
请参阅以下部分,了解如何使用 DataLakeCatalog 引擎的示例:
- Unity Catalog
- Glue Catalog
- OneLake Catalog
可以通过启用allow_experimental_database_iceberg或allow_database_iceberg来使用。