跳到主要内容
跳到主要内容

与 ClickHouse Cloud 集成

介绍

ClickPipes 是一款托管集成平台,使得从各类数据源摄取数据就像点击几下按钮一样简单。ClickPipes 专为最苛刻的工作负载而设计,其健壮且可扩展的架构确保了稳定一致的性能和可靠性。ClickPipes 既可用于长期的流式数据摄取需求,也可用于一次性的数据加载任务。

ClickPipes stack

支持的数据源

名称Logo类型状态描述
Apache Kafka流式稳定版配置 ClickPipes,并开始将来自 Apache Kafka 的流式数据摄取到 ClickHouse Cloud。
Confluent Cloud流式稳定版通过我们的直接集成,充分利用 Confluent 与 ClickHouse Cloud 组合的强大能力。
Redpanda
Redpanda 徽标
流式稳定版配置 ClickPipes,并开始将来自 Redpanda 的流式数据摄取到 ClickHouse Cloud。
AWS MSK流式稳定版配置 ClickPipes,并开始将来自 AWS MSK 的流式数据摄取到 ClickHouse Cloud。
Azure Event Hubs流式稳定版配置 ClickPipes,并开始将来自 Azure Event Hubs 的流式数据摄取到 ClickHouse Cloud。有关指导,请参阅 Azure Event Hubs 常见问题
WarpStream流式稳定版配置 ClickPipes,并开始将来自 WarpStream 的流式数据摄取到 ClickHouse Cloud。
Amazon S3对象存储稳定版配置 ClickPipes,从对象存储中摄取海量数据。
Google Cloud Storage对象存储稳定版配置 ClickPipes,从对象存储中摄取海量数据。
DigitalOcean Spaces对象存储稳定版配置 ClickPipes,从对象存储中摄取海量数据。
Azure Blob Storage对象存储稳定版配置 ClickPipes,从对象存储中摄取海量数据。
Amazon Kinesis流式稳定版配置 ClickPipes,并开始将来自 Amazon Kinesis 的流式数据摄取到 ClickHouse Cloud。
PostgresDBMS稳定版配置 ClickPipes,并开始将来自 Postgres 的数据摄取到 ClickHouse Cloud。
MySQLDBMS公共测试版配置 ClickPipes,并开始将来自 MySQL 的数据摄取到 ClickHouse Cloud。
MongoDBDBMS私有预览版配置 ClickPipes,并开始将来自 MongoDB 的数据摄取到 ClickHouse Cloud。

后续还会为 ClickPipes 添加更多连接器,您可以通过联系我们了解更多信息。

静态 IP 列表

下面是 ClickPipes 用于连接到您外部服务的静态 NAT IP(按区域划分)。请将与您实例所在区域对应的 IP 添加到 IP 允许列表中,以允许相关流量通过。

对于所有服务,ClickPipes 的流量将根据服务所在位置,从默认区域发起:

  • eu-central-1:适用于所有位于 EU 区域的服务。(包括 GCP 和 Azure 的 EU 区域)
  • us-east-1:适用于 AWS us-east-1 中的所有服务。
  • ap-south-1:适用于在 AWS ap-south-1 中于 2025 年 6 月 25 日或之后创建的服务(在此日期之前创建的服务使用 us-east-2 的 IP)。
  • ap-northeast-2:适用于在 AWS ap-northeast-2 中于 2025 年 11 月 14 日或之后创建的服务(在此日期之前创建的服务使用 us-east-2 的 IP)。
  • ap-southeast-2:适用于在 AWS ap-southeast-2 中于 2025 年 6 月 25 日或之后创建的服务(在此日期之前创建的服务使用 us-east-2 的 IP)。
  • us-west-2:适用于在 AWS us-west-2 中于 2025 年 6 月 24 日或之后创建的服务(在此日期之前创建的服务使用 us-east-2 的 IP)。
  • us-east-2:适用于所有未在上方明确列出的其他区域。(包括 GCP 和 Azure 的美国区域)
AWS 区域IP 地址
eu-central-118.195.233.217, 3.127.86.90, 35.157.23.2, 18.197.167.47, 3.122.25.29, 52.28.148.40
us-east-154.82.38.199, 3.90.133.29, 52.5.177.8, 3.227.227.145, 3.216.6.184, 54.84.202.92, 3.131.130.196, 3.23.172.68, 3.20.208.150
us-east-23.131.130.196, 3.23.172.68, 3.20.208.150, 3.132.20.192, 18.119.76.110, 3.134.185.180
ap-south-1 (自 2025 年 6 月 25 日起)13.203.140.189, 13.232.213.12, 13.235.145.208, 35.154.167.40, 65.0.39.245, 65.1.225.89
ap-northeast-2 (自 2025 年 11 月 14 日起)3.38.68.69, 52.78.68.128, 13.209.152.13, 3.38.24.84, 3.37.159.31, 3.34.25.104
ap-southeast-2 (自 2025 年 6 月 25 日起)3.106.48.103, 52.62.168.142, 13.55.113.162, 3.24.61.148, 54.206.77.184, 54.79.253.17
us-west-2 (自 2025 年 6 月 24 日起)52.42.100.5, 44.242.47.162, 52.40.44.52, 44.227.206.163, 44.246.241.23, 35.83.230.19

调整 ClickHouse 设置

ClickHouse Cloud 为大多数使用场景提供了合理的默认配置。不过,如果需要为 ClickPipes 的目标表调整某些 ClickHouse 设置,为 ClickPipes 创建一个专用角色是最灵活的解决方案。 步骤:

  1. 创建一个自定义角色:CREATE ROLE my_clickpipes_role SETTINGS ...。详细语法参见 CREATE ROLE
  2. 在创建 ClickPipes 时,在 Details and Settings 步骤中将该自定义角色分配给 ClickPipes 用户。
分配自定义角色

调整 ClickPipes 高级设置

ClickPipes 提供了合理的默认值,可以满足大多数用例的需求。如果您的用例需要进一步微调,可以调整以下设置:

对象存储 ClickPipes

SettingDefault valueDescription
Max insert bytes10GB单个插入批次中可处理的最大字节数。
Max file count100单个插入批次中可处理的最大文件数。
Max threadsauto(3)用于文件处理的最大并发线程数
Max insert threads1用于文件处理的最大并发插入线程数
Min insert block size bytes1GB可插入到表中的数据块的最小字节大小
Max download threads4最大并发下载线程数
Object storage polling interval30s配置在向 ClickHouse 集群插入数据前的最长轮询等待时间。
Parallel distributed insert select2并行分布式 insert select 设置
Parallel view processingfalse是否启用向附加视图并发而非顺序推送。
Use cluster functiontrue是否在多个节点上并行处理文件。
ClickPipes 高级设置

流式 ClickPipes

SettingDefault valueDescription
Streaming max insert wait time5s配置在向 ClickHouse 集群插入数据前的最大等待时间。

错误报告

ClickPipes 会根据在摄取过程中遇到的错误类型,将错误存储在两个不同的表中。

记录错误

ClickPipes 会为目标表创建一个带有后缀 <destination_table_name>_clickpipes_error 的对应表。该表将包含由于数据格式错误或模式不匹配而产生的任何错误,并会保存完整的无效消息。此表的 TTL 为 7 天。

系统错误

与 ClickPipe 运行相关的错误将存储在 system.clickpipes_log 表中。该表会存储与你的 ClickPipe 运行相关的所有其他错误(网络、连接等)。此表的 TTL 为 7 天。

如果 ClickPipes 在 15 分钟后仍无法连接到数据源,或在 1 小时后仍无法连接到目标,则 ClickPipes 实例会停止运行,并在系统错误表中存储一条相应的消息(前提是 ClickHouse 实例可用)。

常见问题解答

  • 什么是 ClickPipes?

    ClickPipes 是 ClickHouse Cloud 的一项功能,能够简化用户将 ClickHouse 服务连接到外部数据源(尤其是 Kafka)的过程。借助 Kafka 的 ClickPipes,用户可以轻松地、持续不断地将数据加载到 ClickHouse 中,从而支持实时分析。

  • ClickPipes 是否支持数据转换?

    是的,ClickPipes 通过提供 DDL 创建能力来支持基础数据转换。之后,您可以在数据加载到 ClickHouse Cloud 服务中的目标表时,利用 ClickHouse 的物化视图功能对数据执行更高级的转换。

  • 使用 ClickPipes 是否会产生额外成本?

    ClickPipes 基于两个维度计费:摄取的数据量和计算资源。完整的定价详情请参见此页面。运行 ClickPipes 还可能在目标 ClickHouse Cloud 服务上带来类似于其他摄取工作负载的间接计算和存储成本。

  • 使用 Kafka 的 ClickPipes 时,有没有办法处理错误或故障?

    有。Kafka 的 ClickPipes 在因任何运行故障(包括网络问题、连接问题等)导致从 Kafka 消费数据失败时会自动重试。如果遇到格式错误的数据或无效的 schema,ClickPipes 会将相应记录存储在 record_error 表中,并继续处理。