Data engineering
ELT vs ETL: тест на свободное припоминание
Припоминание сильнее перечитывания. На каждый промпт скажи или напиши полный ответ по памяти, прежде чем открыть модельный, — именно усилие припоминания закрепляет рассуждения о пайплайне.
Восстанови хребет юнита, не подглядывая: почему индустрия перешла, что покупает реплейабельность, контракт medallion, куда уехала стоимость, и два свойства — инкрементальность и идемпотентность, — которые держат пайплайн warehouse дешёвым и корректным.
- 01Объясни, почему индустрия перешла от ETL к ELT и что ты отдал в обмен.
- 02Что такое реплейабельность и почему это самая глубокая причина, по которой ELT стал дефолтом, — глубже цены?
- 03Опиши medallion-архитектуру и тот единственный контракт, что держит её здоровой.
- 04Куда уехала стоимость, когда индустрия перешла на ELT, и какая одна самая дорогая ошибка?
- 05Что значит, что загрузка идемпотентна, почему загрузки в warehouse обязаны быть идемпотентными и как этого добиться в dbt?
- 06Как безопасно прогнать 90-дневный backfill после фикса бага трансформа и почему microbatch-модели — правильный инструмент?
Если ты смог восстановить каждый ответ по памяти — ты держишь хребет юнита: разделённые storage/compute включили переход; реплейабельность (а не цена) — его самый глубокий выигрыш; контракт medallion — неизменный bronze, трансформируй вперёд — делает реплей надёжным; стоимость уехала на тарифицируемый warehouse, поэтому идёшь инкрементально по умолчанию; каждая загрузка обязана быть идемпотентной (merge по unique_key), потому что загрузчики повторяют; а microbatch превращает долгий backfill в перезапускаемые, независимые, идемпотентные единицы.