Перейти к основному содержанию
Перейти к основному содержанию

Интеграция Apache Spark с ClickHouse

ClickHouse Supported

Apache Spark — это вычислительный движок с поддержкой нескольких языков для выполнения задач data engineering, data science и машинного обучения на отдельных узлах или в кластерах.

Существует два основных способа подключить Apache Spark к ClickHouse:

  1. Spark Connector — коннектор Spark реализует DataSourceV2 и имеет собственное управление каталогом (Catalog). На данный момент это рекомендованный способ интеграции ClickHouse и Spark.
  2. Spark JDBC — интеграция Spark и ClickHouse с использованием источника данных JDBC.


Оба решения успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.