OnTime
Этот набор сформирован на основе данных Бюро транспортной статистики США (Bureau of Transportation Statistics).
Создание таблицы
Импорт сырых данных
Загрузка данных:
Многопоточная загрузка данных:
(если на вашем сервере будет нехватка памяти или возникнут другие проблемы, удалите флаг -P $(nproc))
Импорт из сохранённой копии
Также вы можете импортировать данные из сохранённой копии с помощью следующего запроса:
Снимок был создан 29.05.2022.
Запросы
Q0.
Q1. Количество рейсов в день с 2000 по 2008 год
Q2. Количество рейсов, задержанных более чем на 10 минут, по дням недели в 2000–2008 годах
Q3. Количество задержек по аэропортам в 2000–2008 годах
Q4. Количество задержек по авиакомпаниям за 2007 год
Q5. Процент задержек по авиаперевозчикам в 2007 году
Более удачный вариант того же запроса:
Q6. Предыдущий запрос с более широким диапазоном лет — 2000–2008
Более удачная версия этого же запроса:
Q7. Доля рейсов, задержанных более чем на 10 минут, по годам
Более оптимальный вариант того же запроса:
Q8. Наиболее популярные пункты назначения по количеству городов с прямым сообщением для различных периодов
Вопрос 9.
Q10.
Дополнительно:
Вы также можете поэкспериментировать с данными в Playground, см. пример.
Этот тест производительности был создан Вадимом Ткаченко. См.:
- https://www.percona.com/blog/2009/10/02/analyzing-air-traffic-performance-with-infobright-and-monetdb/
- https://www.percona.com/blog/2009/10/26/air-traffic-queries-in-luciddb/
- https://www.percona.com/blog/2009/11/02/air-traffic-queries-in-infinidb-early-alpha/
- https://www.percona.com/blog/2014/04/21/using-apache-hadoop-and-impala-together-with-mysql-for-data-analysis/
- https://www.percona.com/blog/2016/01/07/apache-spark-with-air-ontime-performance-data/
- http://nickmakos.blogspot.ru/2012/08/analyzing-air-traffic-performance-with.html