Интеграция Apache Spark с ClickHouse
ClickHouse Supported
Apache Spark — это вычислительный движок с поддержкой нескольких языков для выполнения задач data engineering, data science и машинного обучения на отдельных узлах или в кластерах.
Существует два основных способа подключить Apache Spark к ClickHouse:
- Spark Connector — коннектор Spark реализует
DataSourceV2и имеет собственное управление каталогом (Catalog). На данный момент это рекомендованный способ интеграции ClickHouse и Spark. - Spark JDBC — интеграция Spark и ClickHouse с использованием источника данных JDBC.
Оба решения успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.