ParquetMetadata
Описание
Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Всегда выводит одну строку со следующей структурой/содержимым:
num_columns- количество столбцовnum_rows- общее количество строкnum_row_groups- общее количество групп строкformat_version- версия формата Parquet, всегда 1.0 или 2.6total_uncompressed_size- общий размер данных в байтах в несжатом виде, вычисляемый как сумма total_byte_size из всех групп строкtotal_compressed_size- общий размер данных в байтах в сжатом виде, вычисляемый как сумма total_compressed_size из всех групп строкcolumns- список метаданных столбцов со следующей структурой:name- имя столбцаpath- путь столбца (отличается от имени для вложенного столбца)max_definition_level- максимальный уровень определенияmax_repetition_level- максимальный уровень повторенияphysical_type- физический тип столбцаlogical_type- логический тип столбцаcompression- тип сжатия, используемый для этого столбцаtotal_uncompressed_size- общий размер столбца в байтах в несжатом виде, вычисляемый как сумма total_uncompressed_size для столбца из всех групп строкtotal_compressed_size- общий размер столбца в байтах в сжатом виде, вычисляемый как сумма total_compressed_size для столбца из всех групп строкspace_saved- процент пространства, сэкономленного за счет сжатия, вычисляемый как (1 - total_compressed_size/total_uncompressed_size)encodings- список кодировок (encodings), используемых для этого столбца
row_groups- список метаданных групп строк со следующей структурой:num_columns- количество столбцов в группе строкnum_rows- количество строк в группе строкtotal_uncompressed_size- общий размер группы строк в байтах в несжатом видеtotal_compressed_size- общий размер группы строк в байтах в сжатом видеcolumns- список метаданных чанков столбцов со следующей структурой:name- имя столбцаpath- путь столбцаtotal_compressed_size- общий размер столбца в байтах в сжатом видеtotal_uncompressed_size- общий размер группы строк в байтах в несжатом видеhave_statistics- булевый флаг, который указывает, содержат ли метаданные чанка столбца статистику по столбцуstatistics- статистика чанка столбца (все поля равны NULL, если have_statistics = false) со следующей структурой:num_values- количество значений, отличных от NULL (non-null), в чанке столбцаnull_count- количество значений NULL в чанке столбцаdistinct_count- количество различных значений в чанке столбцаmin- минимальное значение в чанке столбцаmax- максимальное значение в чанке столбца
Пример использования
Пример: