awesome-everything EN
↑ Обратно к восхождению

Data engineering

Parquet: тест на припоминание

Суть Промпты на свободное припоминание по всему юниту Parquet — колоночная раскладка, pushdown через футер, encoding против compression, размер row group, schema evolution и table formats.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min

Припоминание бьёт перечитывание. На каждый промпт скажи или запиши полный ответ по памяти, прежде чем открыть модельный ответ — именно усилие припоминания закрепляет решения по раскладке.

Цель

Восстанови ключевые механизмы юнита — колоночную раскладку, pushdown через футер, разделение encoding/compression, размер row group, schema evolution и то, что добавляют table formats — не заглядывая в урок.

Вспомните перед уходом
  1. 01
    Объясни от начала до конца, почему фильтрованный запрос с проекцией на Parquet читает гораздо меньше, чем тот же запрос на CSV.
  2. 02
    Опиши физическую вложенность внутри Parquet-файла, от файла вниз до закодированных значений.
  3. 03
    Чем отличаются encoding и compression в Parquet и почему держать их в голове раздельно?
  4. 04
    Что такое small-files problem, почему она калечит планирование запросов и как помогают table formats?
  5. 05
    Как выбирать размер row group и что идёт не так на каждом краю?
  6. 06
    Почему schema evolution это ловушка с сырым Parquet и как table formats делают её безопасной?
Итог

Если ты смог восстановить каждый ответ по памяти — ты держишь хребет юнита: Parquet колоночный и самоописывающий, так что pruning и pushdown читают только то, что нужно запросу — но лишь когда данные кластеризованы по колонкам фильтра. Файл вложен файл — row group — column chunk — page, и каждая page сначала кодируется (структурный, типозависимый слой), затем сжимается (байтовый кодек) — два отдельных выигрыша с отдельными режимами отказа. Размер row group — реальная ручка с плохими краями в обе стороны, small-files problem лечится compaction, а поскольку у сырого Parquet нет транзакций и стабильной идентичности схемы, table formats оборачивают его манифестом ради ACID, безопасной schema evolution, time travel и отсева на уровне файла.

Продолжить восхождение ↑Parquet: чтение кода и конфигов
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources2
expand
  1. 01
  2. 02

Trademarks belong to their respective owners. Editorial reference only.