Data engineer

до 260 000 до вычета НДФЛ

Требуемый опыт работы
От 3 до 6 лет
Занятость
Полная
Образование
Высшее

Kelly - международная компания, предоставляющая решения по управлению персоналом с 1946 года в мире и с 1993 года в России. Девиз Kelly - люди, а не кандидаты. Компанию делают талантливые люди. Мы эксперты по талантам. Наш бизнес построен на понимании того, какой набор навыков и какой тип кандидата лучше всего подходит организации. И мы знаем, какие компании предлагают подходящую среду для развития уникальных навыков наших кандидатов. Мы верим в людей. В их уникальные таланты. В их скрытые возможности. В способность критиковать и сомневаться. И мы делаем все возможное, чтобы помочь им найти работу своей мечты. Благодаря нам уже более полумиллиона людей во всем мире нашли такую работу. Постройте свою самую успешную карьеру с Kelly!

Kelly

Москва м. Площадь Революции
www.kellyservices.ru/
Откликнуться Показать контакты

Условия работы

Мы предлагаем:


- Полностью удаленная работа в динамично растущем подразделении (прирост в 2 раза за 2020-й год) над новыми интересными проектами, связанными с Data Science.

- Минимум бюрократии и legacy-кода.

- Проектная работа (в команде есть data science, data engineers, ETL, Python- и frontend-разработчики, архитекторы, аналитики, тестировщики).

- Возможности профессионального и карьерного роста (регулярные performance review), ротации в смежные специальности.


Обязанности

Чем предстоит заниматься:


- Разработка продакшен-пайплайнов обработки данных в одной из областей:

- Сервисы товарных рекомендаций, data-driven merchandising, персонализация;

- Прогнозные модели и системы автоматизации планирования и управления ассортиментом, ценами и промо.

- Индустриализация прототипов команды Data Science в одной из перечисленных областей.

- Техническое документирование разработок.

- Третья линия поддержки пайплайнов.


Требования к квалификации

Что мы ждем от кандидата:


- Реляционные СУБД (PostgreSQL, в идеале еще и Greenplum): проектирование структур таблиц, работа с большими объемами данных (> терабайта), умение писать и оптимизировать сложные SQL-запросы (CTE, подзапросы, джойны, агрегация, оконные функции), хранимые процедуры (функции), умение читать и понимать план запроса.

- Уверенное знание Python 3:

- ООП, магические методы, перегрузка, наследование (super);

- Понимание структур данных (список, словарь, set, отличие базовых операций с ними по степени сложности).


По pandas требуется:


- Уверенное знание API pandas;

- Умение векторизировать вычисления (избегать циклов);

- Оптимизация кода по памяти.

- Опыт написания промышленных пайплайнов обработки данных, содержащих множество шагов, зависимостей и сложную логику.

- Умение разбираться в чужом коде (понимание кода, refactoring, code review).

- Linux (базовый опыт: командная строка, shell, работа с файлами, процессами, мониторинг производительности).

- Опыт работы с системами контроля версий (в идеале - командная разработка в git (GitLab, GitHub), умение работать с git в командной строке, работа с merge request'ами, решение merge conflict'ов).

- Приветствуется понимание принципов CI / CD, знание подходов к проектированию хранилищ данных, а также опыт работы с:

- MPP СУБД (Greenplum, Teradata, Vertica), понимание дистрибуции и партиционирования данных;

- Docker, Kubernetes;

- Инструментами для разработки и оркестрации пайплайнов (Apache Airflow, Luigi);

- Облачными технологиями (в частности, S3);

- дебагом утечек памяти в Python (pandas; на стыке DS и Python);

- PySpark, Dask, Modin.


Технический стек: Greenplum, PostgreSQL, Python (pandas, Modin), GitLab, Linux, Docker, Kubernetes, Yandex.Cloud.


Место работы

Москва м. Площадь Революции

Похожие вакансии