Перейти к основному содержанию
Перейти к основному содержанию

Учебные материалы и примеры наборов данных

У нас есть множество ресурсов, которые помогут вам начать работу и понять, как работает ClickHouse:

  • Если вам нужно быстро развернуть ClickHouse, ознакомьтесь с разделом Quick Start
  • В руководстве ClickHouse Tutorial разбирается набор данных поездок на такси в Нью‑Йорке

Кроме того, демонстрационные наборы данных позволяют на практике работать с ClickHouse, осваивать важные приёмы и подходы и видеть, как использовать множество мощных функций ClickHouse. Демонстрационные наборы данных включают:

СтраницаОписание
Отзывы покупателей AmazonБолее 150 млн отзывов покупателей о товарах Amazon
Бенчмарк AMPLab для больших данныхЭталонный набор данных, используемый для сравнения производительности решений для хранилищ данных.
Анализ данных из Stack Overflow с помощью ClickHouseАнализ данных Stack Overflow в ClickHouse
Анонимизированные данные веб-аналитикиНабор данных из двух таблиц с анонимизированными данными веб‑аналитики о хитах и визитах
Бенчмарк Университета БраунаНовый аналитический бенчмарк для машинно-сгенерированных логов
Открытые данные по COVID-19COVID-19 Open-Data — это крупная открытая база эпидемиологических данных о COVID-19 и связанных с ним факторов, таких как демографические и экономические показатели, а также меры реагирования правительств
датасет DBpediaНабор данных, содержащий 1 миллион статей из Википедии и их векторные эмбеддинги
Данные датчиков окружающей средыБолее 20 миллиардов записей данных от Sensor.Community — глобальной сети датчиков, развиваемой участниками сообщества и создающей открытые данные об окружающей среде.
Заведения FoursquareНабор данных с более 100 миллионами записей, содержащих информацию о местах на карте, таких как магазины, рестораны, парки, детские площадки и памятники.
Геоданные на основе набора данных сотовых вышекУзнайте, как загрузить данные OpenCelliD в ClickHouse, подключить Apache Superset к ClickHouse и построить панель мониторинга на основе этих данных.
Набор данных событий GitHubНабор данных, содержащий все события на GitHub с 2011 года по 6 декабря 2020 года, объёмом 3,1 миллиарда записей.
Набор данных Hacker NewsНабор данных с 28 миллионами записей Hacker News.
Набор данных для векторного поиска Hacker NewsНабор данных с более чем 28 млн постов на Hacker News и их векторными представлениями
Набор данных LAION 5BНабор данных из 100 миллионов векторов из LAION 5B
Набор данных LAION-400MНабор данных, содержащий 400 миллионов изображений с англоязычными подписями
Набор данных «What's on the Menu?» Нью-Йоркской публичной библиотекиНабор данных, содержащий 1,3 млн записей исторических данных о меню отелей, ресторанов и кафе с указанием блюд и их цен.
Данные такси Нью-ЙоркаДанные о миллиардах поездок на такси и заказных автомобилях (Uber, Lyft и др.), совершённых в Нью‑Йорке с 2009 года
NOAA Global Historical Climatology Network2,5 млрд строк данных о климате за последние 120 лет
Данные жалоб в NYPDПриём и запрос данных в формате TSV за 5 шагов
OnTimeНабор данных о пунктуальности авиарейсов
Бенчмарк Star Schema (SSB, 2009)Набор данных и запросы бенчмарка Star Schema (SSB)
Наборы исторических метеоданных Тайваня131 млн строк метеонаблюдений за последние 128 лет
Терабайт логов кликов от CriteoТерабайт логов кликов Criteo
Набор данных о ценах на недвижимость в ВеликобританииУзнайте, как использовать проекции для повышения производительности часто выполняемых запросов на основе набора данных UK property, содержащего информацию о ценах сделок с объектами недвижимости в Англии и Уэльсе
TPC-DS (2012)Набор данных и запросы эталонного теста TPC-DS.
TPC-H (1999)Набор данных бенчмарка TPC-H и запросы.
WikiStatИзучите набор данных WikiStat, содержащий 0,5 триллиона записей.
Составление запросов в ClickHouse на данных GitHubНабор данных, содержащий все коммиты и изменения для репозитория ClickHouse
Набор данных по дизлайкам YouTubeНабор отметок «Не нравится» для видео на YouTube.