עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!
במקום לחפש לבד בין מאות מודעות – תנו ל-Jobify לנתח את קורות החיים שלכם ולהציג לכם רק הזדמנויות שבאמת שוות את הזמן שלכם מתוך מאגר המשרות הגדול בישראל.
השימוש חינם, ללא עלות וללא הגבלה.
With more than 2,000 active customers, ControlUp is a leading digital employee experience improvement platform that offers an integrated monitoring, optimization, security, and compliance solution, transforming the way IT teams manage their environments and troubleshoot issues. Our solutions provide IT professionals with deep visibility and actionable insights, empowering them to proactively enhance end-user experiences while saving hundreds of thousands of dollars and valuable time for millions of active users.
Job Description:
We are seeking a highly skilled Site Reliability Engineer (SRE) to own production stability, system performance, financial operations (FinOps), and cost of goods sold (COGS) management in a large-scale environment. You will work closely with engineering, product, and customer teams to ensure our advanced technology stack is optimized to meet and exceed customer SLAs.
Key Responsibilities
- Maintain and improve production stability across a large-scale infrastructure with thousands of Kubernetes nodes and instances
- Monitor, analyze, and optimize system performance to ensure seamless user experience and SLA adherence
- Implement and drive FinOps practices to manage cloud cost efficiency and cost of goods sold (COGS) effectively
- Utilize ControlUp and other advanced monitoring/observability tools to proactively detect issues and ensure SLA compliance
- Collaborate with development and operations teams to automate deployments, scaling, and incident response
- Design and implement robust alerting, incident management, and post-mortem processes
- Continuously evaluate and adopt cutting-edge technologies to improve reliability, performance, and cost efficiency
- Provide technical guidance and best practices for infrastructure and application scalability
- Participate in on-call rotations to respond to critical incidents and minimize downtime
- Proven experience as an SRE or similar role in large-scale environments with thousands of Kubernetes nodes and instances
- Strong expertise in Kubernetes, container orchestration, and cloud infrastructure (AWS, GCP, Azure, or similar)
- Solid understanding of performance tuning, monitoring, and observability tools (experience with ControlUp is a strong plus)
- Experience with FinOps principles and tools to manage cloud costs and optimize resource utilization
- Deep knowledge of production incident management, root cause analysis, and SLA management
- Proficiency in scripting and automation (Python, Go, Bash, etc.).Familiarity with CI/CD pipelines and infrastructure as code (Terraform, Helm, etc.).Excellent communication skills and ability to work collaboratively across teams
במקום לחפש לבד בין מאות מודעות – תנו ל-Jobify לנתח את קורות החיים שלכם ולהציג לכם רק הזדמנויות שבאמת שוות את הזמן שלכם מתוך מאגר המשרות הגדול בישראל.
השימוש חינם, ללא עלות וללא הגבלה.
שאלות ותשובות עבור משרת Site Reliability Engineer
התפקיד המרכזי של מהנדס/ת אמינות אתר (SRE) ב-ControlUp הוא להבטיח יציבות ייצור, ביצועי מערכת אופטימליים, ולנהל את התפעול הפיננסי (FinOps) ועלות המכירה (COGS) בסביבת עבודה רחבת היקף. התפקיד כולל עבודה צמודה עם צוותי הנדסה, מוצר ולקוחות כדי להבטיח שהטכנולוגיה המתקדמת של החברה עומדת ביעדי SLA ואף עולה עליהם.
משרות נוספות מומלצות עבורך
-
Site Reliability Engineer
-
יקנעם עילית
NielsenIQ
-
-
Site Reliability Engineer (SRE)
-
תל אביב - יפו
Finubit
-
-
Observability & Monitoring Engineer
-
תל אביב - יפו
Kela Technologies
-
-
Site Reliability Engineer
-
תל אביב - יפו
Check Point Software
-
-
Site Reliability Engineer
-
תל אביב - יפו
Grubhub
-
-
Site Reliability Engineer DEVOPS גוש דן
-
תל אביב - יפו
Logica-IT
-