Вакансия Site reliability engineer (Engineering platform, Центр робототехники Сбера)

вакансия от 16.05.2025
Зарплата договорная

Работодатель: СБЕР
Показать контакты

График работы: Полный рабочий день

TVtoken

Дополнительный заработок в свободное время за просмотр обзоров товаров и услуг. Получай деньги на карту! Никаких вложений, кроме 5 минут в день вашего времени!

Перейти на сайт

Должностные обязанности
Центр Робототехники — динамично развивающееся подразделение, специализирующееся на исследованиях и разработке решений в области робототехники, компьютерного зрения и машинного обучения. Наша MLOps Platform Engineering Team отвечает за построение надёжной и масштабируемой платформенной инфраструктуры, которая обеспечивает полный цикл разработки и эксплуатации ML-сервисов — от прототипирования до продакшен-решений в сфере робототехники. Сейчас мы ищем SRE (Site Reliability Engineer), который поможет нам построить гибридную инфраструктуру, объединяющую локальные ресурсы Центра с облачной платформой Cloud.ru, а также создаст эффективные инструменты для утилизации GPU и Observability всех ресурсов. Почему у нас круто: Сложные технологические вызовы: Вы будете одним из ключевых инженеров, кто создаёт гибридную платформу для робототехнических решений в реальном производстве. Влияние на продукт: Непосредственное участие в постановке задач и формировании архитектуры, результаты вашей работы видны сразу. Развитие и экспертиза: Регулярные внутренние митапы по MLOps, DevOps и SRE, возможность влиять на технический ландшафт целого направления. Инновационная среда: Работа в Центре Робототехники подразумевает тесное взаимодействие с учёными, исследователями и инженерами-робототехниками. Обязанности 1.Проектирование и развёртывание гибридной инфраструктуры: Объединение локального железа Центра Робототехники и облачных ресурсов Cloud.ru (advanced конфигурации). Настройка сетевых связей, управление безопасностью и политиками доступа. 2.Инфраструктурное программирование (IaC): Разработка и поддержка Terraform/Ansible/Pulumi скриптов для автоматического конфигурирования ресурсов. Создание модульных и повторно используемых шаблонов, упрощающих дальнейшее масштабирование. 3.Разработка методики расчёта утилизации GPU: Сбор метрик и анализ загрузки GPU (NVIDIA, AMD или другие в зависимости от стека). Создание дашбордов и отчётов для принятия решений о ресурсном планировании и эффективности использования. 4.Построение системы Observability: Внедрение инструментов для логирования, трассировки и мониторинга (Prometheus, Grafana, Jaeger и т.д.). Разработка алертинг-стратегии (alerting), позволяющей оперативно реагировать на сбои в гибридном контуре. Оптимизация и настройка мониторинга высоконагруженных сервисов, ML-пайплайнов и робототехнических модулей. 5.Участие в общей культуре SRE: Совместная работа с командами разработчиков, ML-инженеров и DevOps, чтобы обеспечить надёжность сервисов. Участие в планировании и проведении постмортемов, инцидент-менеджменте и постоянном улучшении инфраструктуры. Требования Уверенные навыки IaC: опыт работы с Terraform, Ansible или аналогичными инструментами для описания и управления инфраструктурой. Опыт в настройке Observability: понимание принципов мониторинга, логирования и трассировки, опыт работы с Prometheus, Grafana, ELK/EFK, Jaeger и т.д. Понимание GPU-среды: умение работать с GPU кластерами (NVIDIA, AMD), собирать метрики, анализировать производительность. Знание основ сетевых протоколов и безопасности: настройка VPN/SSH-туннелей, работа с firewall, обеспечение безопасного доступа к ресурсам. Практика в гибридных или мультиоблачных окружениях: настройка связи локального ЦОД и облачного провайдера (AWS, GCP, Azure, Cloud.ru и т.д.). Желателен опыт SRE: понимание подходов SLO/SLI/SLA, error budget и методов управления надёжностью в распределённых системах. Soft Skills: способность эффективно коммуницировать с другими командами (ML, Dev, QA), умение писать понятную документацию, готовность обучать коллег. Условия Офисный формат работы, возможность гибридного графика Комфортный современный офис рядом с м. Кутузовская Ежегодный пересмотр зарплаты, годовая премия Корпоративный спортзал и зоны отдыха Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития Программа адаптации и помощь руководителя на старте Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа Ипотека для сотрудников выгоднее до 4% Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров

Требования к кандидату
Образование: Не указано
Опыт работы: не требуется

Адрес места работы
г Москва

Site reliability engineer (Engineering platform, Центр робототехники Сбера)

О проекте

Реклама на сайте

Наши контакты