MongoDB から ClickHouse へのデータ取り込み(CDC の使用)
ClickPipes を使用して MongoDB から ClickHouse Cloud へデータを取り込む機能は、現在パブリックベータ段階です。
ClickHouse Cloud のコンソールおよびドキュメントでは、MongoDB に対して「table」と「collection」は同義語として使用されます。
ClickPipes を使用すると、MongoDB データベースから ClickHouse Cloud にデータを取り込むことができます。ソースの MongoDB データベースは、オンプレミス環境にホストすることも、MongoDB Atlas のようなサービスを利用してクラウド上にホストすることもできます。
前提条件
作業を開始する前に、MongoDB データベースがレプリケーション用に正しく構成されていることを確認する必要があります。構成手順は MongoDB のデプロイ方法によって異なるため、以下の該当するガイドに従ってください。
ソース MongoDB データベースのセットアップが完了したら、ClickPipe の作成に進みます。
ClickPipe を作成する
ClickHouse Cloud アカウントにログインしていることを確認してください。まだアカウントがない場合は、こちらからサインアップできます。
- ClickHouse Cloud コンソールで、対象の ClickHouse Cloud Service に移動します。

- 左側メニューの
Data Sourcesボタンを選択し、"Set up a ClickPipe" をクリックします。

MongoDB CDCタイルを選択します。

ソース MongoDB データベース接続を追加する
-
事前準備のステップで設定したソース MongoDB データベースの接続情報を入力します。
参考文献接続情報の入力を開始する前に、ファイアウォールルールで ClickPipes の IP アドレスをホワイトリストに登録していることを確認してください。次のページで ClickPipes の IP アドレス一覧 を確認できます。 詳細については、このページの先頭にリンクされているソース MongoDB セットアップガイドを参照してください。

(オプション)SSH トンネリングを設定する
ソース MongoDB データベースがインターネットから直接アクセスできない場合は、SSH トンネリングの詳細を指定できます。
-
"Use SSH Tunnelling" トグルを有効にします。
-
SSH 接続情報を入力します。

-
キーベース認証を使用するには、"Revoke and generate key pair" をクリックして新しいキーペアを生成し、生成された公開鍵を SSH サーバーの
~/.ssh/authorized_keysにコピーします。 -
"Verify Connection" をクリックして接続を確認します。
ClickPipes が SSH トンネルを確立できるように、SSH バスティオンホストのファイアウォールルールで ClickPipes の IP アドレス を必ずホワイトリストに登録してください。
接続情報の入力が完了したら、Next をクリックします。
詳細設定を構成する
必要に応じて詳細設定を構成できます。各設定の概要は次のとおりです。
- Sync interval: ClickPipes がソースデータベースの変更をポーリングする間隔です。これは宛先の ClickHouse サービスにも影響します。コストを重視するユーザーには、この値を高め(
3600以上)に保つことを推奨します。 - Pull batch size: 1 回のバッチでフェッチする行数です。これはベストエフォートの設定であり、すべての場合で厳密に守られるとは限りません。
- Snapshot number of tables in parallel: 初期スナップショット時に並列でフェッチするテーブル数です。多数のテーブルがある場合に、並列でフェッチするテーブル数を制御したいときに有用です。
テーブルを構成する
-
ここで ClickPipe の宛先データベースを選択できます。既存のデータベースを選択することも、新規に作成することもできます。

-
ソース MongoDB データベースからレプリケートしたいテーブルを選択できます。テーブルを選択する際、宛先の ClickHouse データベースでテーブル名を変更することもできます。
権限を確認して ClickPipe を開始する
-
権限のドロップダウンから "Full access" ロールを選択し、"Complete Setup" をクリックします。

次のステップ
MongoDB から ClickHouse Cloud へデータをレプリケートする ClickPipe のセットアップが完了したら、最適なパフォーマンスを得るために、データのクエリ方法とモデリング方法に集中できます。
注意事項
このコネクタを使用する際の注意事項は次のとおりです。
- MongoDB のバージョン 5.1.0 以上が必要です。
- CDC には MongoDB のネイティブの Change Streams API を使用しており、MongoDB の oplog に依存してリアルタイムの変更を取得します。
- MongoDB からのドキュメントは、デフォルトでは ClickHouse では JSON 型としてレプリケートされます。これにより柔軟なスキーマ管理が可能になり、ClickHouse の豊富な JSON 演算子をクエリや分析に利用できます。JSON データのクエリ方法についてはこちらを参照してください。
- ユーザー自身で行う PrivateLink の構成は現在利用できません。AWS 上で PrivateLink が必要な場合は、[email protected] までご連絡いただくか、サポートチケットを作成してください。有効化に向けて個別に対応します。