Amazon Glue を ClickHouse および Spark と統合する

ClickHouse Supported

Amazon Glue は、Amazon Web Services (AWS) が提供するフルマネージドなサーバーレスのデータ統合サービスです。分析、機械学習、アプリケーション開発のためのデータの検出、準備、変換といった処理を簡素化します。

インストール

Glue のコードを ClickHouse と連携させるには、次のいずれかの方法で Glue から公式 Spark コネクタを利用できます。

AWS Marketplace から ClickHouse Glue コネクタをインストールする（推奨）。
Spark コネクタの JAR を手動で Glue ジョブに追加する。

AWS Marketplace
Manual Installation

コネクタをサブスクライブする
自分のアカウントでコネクタにアクセスするには、AWS Marketplace から ClickHouse AWS Glue Connector をサブスクライブします。
必要な権限を付与する
Glue ジョブの IAM ロールに、最小権限のガイドで説明されている必要な権限が付与されていることを確認します。
コネクタを有効化して接続を作成する
このリンクをクリックすると、主要な項目があらかじめ入力された状態で Glue の接続作成ページが開き、そこからコネクタを有効化して接続を作成できます。接続に名前を付けて「作成」をクリックします（この段階では ClickHouse の接続情報を入力する必要はありません）。
Glue ジョブでの利用
Glue ジョブで Job details タブを選択し、Advanced properties ウィンドウを展開します。Connections セクションで、先ほど作成した接続を選択します。コネクタは、必要な JAR をジョブのランタイムに自動的に注入します。

注記

Glue コネクタで使用される JAR は、Spark 3.3、Scala 2、Python 3 向けにビルドされています。Glue ジョブを設定する際は、必ずこれらのバージョンを選択してください。

必要な JAR を手動で追加するには、次の手順に従ってください。

次の JAR を S3 バケットにアップロードします: clickhouse-jdbc-0.6.X-all.jar と clickhouse-spark-runtime-3.X_2.X-0.8.X.jar。
Glue ジョブがこのバケットにアクセスできることを確認します。
Job details タブで下にスクロールし、Advanced properties ドロップダウンを展開して、Dependent JARs path に JAR のパスを入力します。

使用例

Scala（スカラ）
Python

import com.amazonaws.services.glue.GlueContext
import com.amazonaws.services.glue.util.GlueArgParser
import com.amazonaws.services.glue.util.Job
import com.clickhouseScala.Native.NativeSparkRead.spark
import org.apache.spark.sql.SparkSession

import scala.collection.JavaConverters._
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._

object ClickHouseGlueExample {
def main(sysArgs: Array[String]) {
val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray)

val sparkSession: SparkSession = SparkSession.builder
  .config("spark.sql.catalog.clickhouse", "com.clickhouse.spark.ClickHouseCatalog")
  .config("spark.sql.catalog.clickhouse.host", "<your-clickhouse-host>")
  .config("spark.sql.catalog.clickhouse.protocol", "https")
  .config("spark.sql.catalog.clickhouse.http_port", "<your-clickhouse-port>")
  .config("spark.sql.catalog.clickhouse.user", "default")
  .config("spark.sql.catalog.clickhouse.password", "<your-password>")
  .config("spark.sql.catalog.clickhouse.database", "default")
  // for ClickHouse cloud
  .config("spark.sql.catalog.clickhouse.option.ssl", "true")
  .config("spark.sql.catalog.clickhouse.option.ssl_mode", "NONE")
  .getOrCreate

val glueContext = new GlueContext(sparkSession.sparkContext)
Job.init(args("JOB_NAME"), glueContext, args.asJava)
import sparkSession.implicits._

val url = "s3://{path_to_cell_tower_data}/cell_towers.csv.gz"

val schema = StructType(Seq(
  StructField("radio", StringType, nullable = false),
  StructField("mcc", IntegerType, nullable = false),
  StructField("net", IntegerType, nullable = false),
  StructField("area", IntegerType, nullable = false),
  StructField("cell", LongType, nullable = false),
  StructField("unit", IntegerType, nullable = false),
  StructField("lon", DoubleType, nullable = false),
  StructField("lat", DoubleType, nullable = false),
  StructField("range", IntegerType, nullable = false),
  StructField("samples", IntegerType, nullable = false),
  StructField("changeable", IntegerType, nullable = false),
  StructField("created", TimestampType, nullable = false),
  StructField("updated", TimestampType, nullable = false),
  StructField("averageSignal", IntegerType, nullable = false)
))

val df = sparkSession.read
  .option("header", "true")
  .schema(schema)
  .csv(url)

// Write to ClickHouse
df.writeTo("clickhouse.default.cell_towers").append()


// Read from ClickHouse
val dfRead = spark.sql("select * from clickhouse.default.cell_towers")
Job.commit()
}
}

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from pyspark.sql import Row


## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
logger = glueContext.get_logger()
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

spark.conf.set("spark.sql.catalog.clickhouse", "com.clickhouse.spark.ClickHouseCatalog")
spark.conf.set("spark.sql.catalog.clickhouse.host", "<your-clickhouse-host>")
spark.conf.set("spark.sql.catalog.clickhouse.protocol", "https")
spark.conf.set("spark.sql.catalog.clickhouse.http_port", "<your-clickhouse-port>")
spark.conf.set("spark.sql.catalog.clickhouse.user", "default")
spark.conf.set("spark.sql.catalog.clickhouse.password", "<your-password>")
spark.conf.set("spark.sql.catalog.clickhouse.database", "default")
spark.conf.set("spark.clickhouse.write.format", "json")
spark.conf.set("spark.clickhouse.read.format", "arrow")
# for ClickHouse cloud
spark.conf.set("spark.sql.catalog.clickhouse.option.ssl", "true")
spark.conf.set("spark.sql.catalog.clickhouse.option.ssl_mode", "NONE")

# Create DataFrame
data = [Row(id=11, name="John"), Row(id=12, name="Doe")]
df = spark.createDataFrame(data)

# Write DataFrame to ClickHouse
df.writeTo("clickhouse.default.example_table").append()

# Read DataFrame from ClickHouse
df_read = spark.sql("select * from clickhouse.default.example_table")
logger.info(str(df.take(10)))

job.commit()

詳しくは、Spark のドキュメントをご覧ください。

インストール​

コネクタをサブスクライブする

必要な権限を付与する

コネクタを有効化して接続を作成する

Glue ジョブでの利用

使用例​

インストール

使用例