SRE Инженер

до 300 000 до вычета НДФЛ

Требуемый опыт работы
От 3 до 6 лет
Занятость
Полная
График
Удаленная работа
Образование
Высшее

Если тебе интересны задачи, подходы и инструменты, описанные ниже, ты хочешь получить опыт в крупнейшем е-коме РФ, при этом ты подходишь под наши требования - нам стоит пообщаться что бы обсудить все детали!

В команду нового сайта и нового движка поиска/каталога мы ищем инженеров, пришедших (или переходящих) в SRE как из разработки (SRE/SWE), так и из администрирования (SRE/SE).

Kelly

Москва Красносельская Нижн. м. Красносельская
www.kellyservices.ru/
Показать контакты

Условия работы

  • Возможность работать удалённо (из любого города и региона);
  • Нетривиальные задачи и real highload;
  • Большая и сильная команда профессионалов (которые будут рады как поделиться опытом с тобой, так и перенять опыт у тебя), мы нацелены на результат;
  • В проектах нет legacy, вся разработка ведётся на современном стэке;
  • Ещё у нас есть отдельная команда дежурных инженеров с присутствием 24x7 - наши глаза и руки, которые в случае проблем прода, требующих вызова on-call SRE, уже смогут дать контекст к моменту нашего подключения;
  • Конкурентоспособная з/п;
  • При необходимости предоставляем оборудование для работы;
  • Официальное оформление по ТК РФ в Kelly IT Solutions, белая заработная плата;
  • ДМС после испытательного срока (3 месяца);
  • Развитая корпоративная культура.

Обязанности

  • Активный и проактивный поиск возможных проблем в архитектуре систем, их устранение, включая консультации на стадии дизайна, разработки, а так же планирование необходимых для работы сервиса ресурсов и т. д.;
  • Использовать практики SRE, управлять количеством нештатных ситуаций в проде таким образом, чтобы их количество не приводило к превышению error budget;
  • Автоматизация и оптимизация процессов, связанных с обслуживанием систем, усиление их отказоустойчивости, масштабирование - снижение операционной нагрузки на команду;
  • Работа с инцидентами (анализ возникших инцидентов, поиск вариантов их решения, устранение последствий, расследование причин возникновения инцидентов, предотвращение инцидентов и их последствий);
  • Диагностика и решение проблем, включая кросс-системные;
  • Развитие системы мониторинга для активного и проактивного подхода к сопровождению сервисов;
  • Настройка мониторинга не только инфрастуктуры, приложений и их производительности, но и бизнес показателей, разработка дашбордов, на которых будет видна их корреляция и baseline;
  • Участие в развитии системы сквозного трейсинга;
  • Настройка получения и агрегация метрик от всех слоёв приложений, начиная от браузера и заканчивая низкоуровневыми инфраструктурными компонентами;
  • Участие в определении SLI/SLO/SLA;
  • Участие в on-call дежурствах;
  • Разработка тулинга, направленного на автоматизацию нашей работы и на решение нестандартных задач (экспортеры, операторы);
  • Формирование реестра рисков доступности и отказоустойчивости, участие в оценке таких рисков, планирование и реализация мероприятия по их предотвращению;

Требования к квалификации

  • Опыт разработки/сопровождения микросервисных, высоконагруженных, отказоустойчивых асинхронных многокомпонентных веб-, frontend-, backend- приложений;
  • Знание и понимание SRE подходов;
  • Kubernetes - опыт развёртывания и эксплуатации, как в on-prem так и в managed вариантах (облака AWS / YC / MCS);
  • Опыт работы на позиции ведущего разработчика, ведущего инженера по автоматизации (DevOps), SRE от 3-х лет;
  • Хороший опыт работы со следующими инструментами (не обязательно со всеми!): Prometheus, Grafana, ELK, Jaeger, Loki, Zabbix, AppDynamics, Nginx, OpenResty, HAProxy, Envoy, keepalived, PostgreSQL, ElasticSearch, Redis, Couchbase, MongoDB, Kafka, Git, Gitlab CI, Jira, Confluence, Ansible, Terraform, Thanos, VictoriaMetrics, Helm, Harbor, SonarQube, Hashicorp Vault (почти всё из этого у нас так или иначе используется);
  • Опыт в системах observability;
  • Знания сетевых протоколов, понимание маршрутизации и фильтрации трафика;
  • Высшее образование (техническое);


Значительным преимуществом будет следующее:

  • Опыт продуктовой разработки (на любом стэке, но будет плюсом если это Java/Kotlin или Node.js);
  • Экспертиза по базам данных - настройка под высокую нагрузку, настройка высокой доступности, репликация, шардирование, эксплуатация - причём как поддержка, так работа с запросами и данными. У нас используются разные базы данных, но в основном это Postgres, Couchbase и Elasticsearch (как движок поиска, а не только как буква в ELK);
  • Kafka;
  • Наличие сертификации (или прохождение подготовки) по CKA/CKAD exams;
  • Опыт нагрузочного тестирования (у нас отдельная команда «нагрузочников», но полезно понимать о чём тесты, и иногда мы можем взять их сценарии и самостоятельно прогнать, если коллеги заняты на другом подпроекте)
  • Опыт с OpenTelemetry/OpenTracing/OpenCensus;
  • Опыт настройки и эксплуатации L4/L7 балансировщиков под высоконагруженные задачи;
  • Понимание и опыт построения высоконагруженных распределённых систем;
  • Опыт построения Multicloud распределенных систем;
  • Настройка автоскейлинга Stateful сервисов;

Место работы

Москва Красносельская Нижн. м. Красносельская

Похожие вакансии