hudiCluster テーブル関数
これは hudi テーブル関数の拡張機能です。
指定したクラスタ内の多数のノードを使って、Amazon S3 上の Apache Hudi テーブル内のファイルを並列処理できます。イニシエータでは、クラスタ内のすべてのノードへの接続を確立し、各ファイルを動的に割り当てます。ワーカーノードでは、次に処理すべきタスクをイニシエータに問い合わせて、そのタスクを処理します。すべてのタスクが完了するまで、これを繰り返します。
構文
引数
| 引数 | 説明 |
|---|---|
cluster_name | リモートおよびローカルサーバーへのアドレスと接続パラメータのセットを構成するために使用されるクラスター名。 |
url | S3 内の既存の Hudi テーブルへのパスを含むバケットの URL。 |
aws_access_key_id, aws_secret_access_key | AWS アカウントユーザー向けの長期的な認証情報。リクエストの認証に使用できます。これらのパラメータは省略可能です。認証情報が指定されていない場合は、ClickHouse の設定から取得されます。詳細は Using S3 for Data Storage を参照してください。 |
format | ファイルの フォーマット。 |
structure | テーブルの構造。'column1_name column1_type, column2_name column2_type, ...' という形式で指定します。 |
compression | 省略可能なパラメータ。サポートされる値は none, gzip/gz, brotli/br, xz/LZMA, zstd/zst です。既定では、圧縮形式はファイル拡張子から自動検出されます。 |
返される値
S3 上の指定した Hudi テーブルに対し、クラスタからデータを読み取るための、指定した構造を持つテーブル。
仮想カラム
_path— ファイルへのパス。型:LowCardinality(String)。_file— ファイル名。型:LowCardinality(String)。_size— ファイルサイズ(バイト単位)。型:Nullable(UInt64)。ファイルサイズが不明な場合、値はNULLです。_time— ファイルの最終更新時刻。型:Nullable(DateTime)。時刻が不明な場合、値はNULLです。_etag— ファイルの etag。型:LowCardinality(String)。etag が不明な場合、値はNULLです。