Data engineering DATA · 08 · 07

Дата-платформа: тест с выбором ответа

Сквозной синтез: выбери правильное хранилище, формат и индекс под нагрузку — через OLTP/OLAP, ELT, Parquet, MV, event sourcing, поиск и векторы.

DATA Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов, прошивающих весь трек. Каждый — проектное решение, которое ты принимаешь, когда один факт обязан жить сразу в нескольких хранилищах: не определение, а выбор хранилища, формата или контракта под реальную нагрузку.

Цель

Убедись, что умеешь направить нагрузку в подходящее хранилище и раскладку и рассуждать о стыках между ними — к этому синтезу вели юниты про OLTP/OLAP, ELT, Parquet, MV, event sourcing, поиск и векторы.

Викторина

Один факт о товаре должен обслуживать точечные lookups на пути оформления заказа И полный скан таблицы для подсчёта выручки в аналитике. Какая архитектура верна для senior?

Викторина

Команда выбирает между ETL (трансформация в отдельном движке до загрузки) и ELT (загрузка сырого, трансформация внутри склада через dbt). Данные грязные, а бизнес постоянно меняет определение «активного пользователя». Что подходит и почему?

Викторина

Ночной запрос дашборда фильтрует event_date = '2026-05-01' AND country = 'US' по таблице Parquet/Iceberg на 2 ТБ и всё равно сканирует почти все данные. Что даёт наибольший рычаг?

Викторина

Gold materialized view, обслуживающая дашборд, обновляется каждые 6 часов. Финансовый лид жалуется, что число «неверное» против живого SQL-подсчёта. Оба внутренне корректны. Что в дизайне сделано не так?

Викторина

Сервис пишет заказ в Postgres, потом публикует 'OrderPlaced' в Kafka, чтобы среагировали поиск и аналитика. Иногда поисковый индекс так и не узнаёт о заказе. В чём корневая причина и фикс?

Викторина

Поиск по каталогу должен находить опечатанные названия товаров, А RAG-ассистент — отвечать на «ноутбук, хороший для видеомонтажа». Одна команда предлагает использовать векторный индекс для обоих. Какое разделение верно?

Итог

Сквозная нить трека — одна привычка: направь каждую нагрузку в подходящие хранилище и раскладку, а потом спроектируй контракт на каждом стыке. Строковое OLTP для точечных записей, колоночный Parquet для сканов (с pruning по статистике футера), ELT поверх сохранённого сырого ради переигрываемых определений, MV ради задержки чтения с объявленным freshness SLA, outbox против dual-write, inverted index для лексического поиска и векторный ANN для семантического retrieval. Каждое хранилище корректно для своей задачи; система остаётся корректной, только когда ты владеешь схемой, гарантией доставки, freshness SLA и реконсиляцией между ними. Теперь, когда встретишь вопрос про «один факт — несколько хранилищ», первый ход — назвать каждый стык и ответить на четыре вопроса контракта, прежде чем трогать хранилища.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.