Apache Spark と ClickHouse の統合
ClickHouse Supported
Apache Spark は、単一ノード環境またはクラスター上でデータエンジニアリング、データサイエンス、機械学習を実行するためのマルチ言語エンジンです。
Apache Spark と ClickHouse を接続する主な方法は 2 つあります。
- Spark Connector - Spark connector は
DataSourceV2を実装し、独自の catalog 管理を行います。現時点では、ClickHouse と Spark を統合するための推奨手段です。 - Spark JDBC - JDBC データソース を使用して Spark と ClickHouse を統合します。
いずれの方式も検証済みであり、Java、Scala、PySpark、Spark SQL を含むさまざまな API と完全に互換性があります。