Компания "СП Солюшен"
Мы работаем в сфере интернет-трафика, big data и высоконагруженных продуктов, активно развиваемся в направлении AI.
В нашем арсенале более 10 внутренних b2b и b2c проектов собственной разработки.
Основная задача: доработка нашего нового, но уже профитного, игрового продукта мирового масштаба, который динамично растет вместе с командой.
Что предстоит делать:
• Спроектировать и реализовать архитектуру единого профиля клиента (Customer360): все данные о пользователях в одном месте, доступные в near real-time.
• Построить и развивать Data Lake как центральную точку хранения сырых и обработанных данных.
• Создать и поддерживать Data Warehouse и витрины под нужды ML, BI и продуктовых команд.
• Разрабатывать надежные ETL/ELT пайплайны (Python / Airflow / Spark / dbt).
• Выстраивать многоуровневую структуру данных: raw → staging → curated → feature layers.
• Настроить мониторинг качества данных, отслеживание метрик и алерты.
• Участвовать в выборе технологий, постановке архитектуры хранения данных.
Технологический стек:
• Data Lake: S3 / MinIO + Parquet / DeltaLake
• Хранилища: PostgreSQL, ClickHouse
• ETL: Python, Airflow, dbt
• Оркестрация: Airflow, Prefect (по выбору)
• CI/CD и инфраструктура: GitLab, Docker, Kubernetes
• Стриминг: Kafka, RabbitMQ
• ML-инфраструктура: Feature Store, Model Monitoring (совместно с ML-инженерами)
• Мониторинг и алерты: Prometheus, Grafana, кастомные метрики
Требования:
• Опыт проектирования и реализации Data Lake / Data Warehouse с нуля.
• Продвинутые знания SQL (PostgreSQL, ClickHouse).
• Опыт построения ETL/ELT пайплайнов на Python, уверенное владение pandas, pyarrow, SQLAlchemy и т.п.
• Понимание подходов к дата-моделированию: star/snowflake schemas, partitioning, schema evolution.
• Знание CI/CD, Docker
• Опыт работы с стриминговой обработкой данных (Kafka, Spark Streaming, Flink и/или RabbitMQ).
Будет плюсом:
• Опыт работы с Lakehouse архитектурой (например, DeltaLake, Iceberg, Hudi)
• Опыт в совместной работе с ML-командами (feature engineering, пайплайны, мониторинг моделей)
• Опыт работы с векторными базами данных (Faiss, Qdrant, Pinecone и др.)
• Участие в построении Feature Store, реализации data contracts, Data Quality слоёв
Почему это интересно:
• Возможность заложить архитектуру данных с нуля под реальный рост и масштаб.
• Работаете в связке с ML и backend-инженерами, внедряя реальные ML-решения в продакшн.
• Свобода выбора инструментов и подходов, минимум бюрократии.
• Влияние на стек, процессы, культуру — вы не просто исполнитель, вы архитектор системы.
Мы предлагаем:
20 Сентября
Волгоград
Компания "Тинькофф" В Т‑Банк большое и продвинутое хранилище данных: это 8000 объектов, 800 ТБ в Greenplum и 110 ТБ в Clickhouse. С данными...
10 Сентября
Специалист по парсингу данных / Data Parser Developer
Волгоград
Компания "ПКО Воксис" На что будем смотреть в первую очередь: Опыт успешного создания парсеров под конкретные бизнес-задачи. Понимание...
10 Сентября
Волгоград
Компания "Brandquad" Brandquad – продуктовая аккредитованная IT-компания // SaaS-платформа в области e-commerce решений // работаем с 2015 г....
27 Сентября
Тестировщик-автоматизатор (Automation QA Engineer) Python
Волгоград
Компания "ВСК, САО" В нашей IT-команде уже больше 850 специалистов, которые постоянно совершенствуют свои навыки. Мы не стоим на месте —...
28 Сентября
Backend-разработчик (Middle+/Senior) | PHP 8.x / Laravel
Волгоград
от 150 000 руб.
Компания "Ваш бизнес" Мы — стартап ProfZabot , создаём CRM для индустрии красоты и сервиса. Продукт быстро растёт, и мы расширяем команду ,...