jobify_logo ×
  • מִשׁתַמֵשׁ
  • התחברות/הרשמה
  • עמוד הבית
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות
קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service work_office המקום
jobify_logo
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
דילוג לתוכן

עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!

במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

LLM Inference Engineer

Majestic Labs

Majestic Labs

  • תל אביב - יפו
  • Indeed
Indeed

LLM Inference Engineer

Majestic Labs

Majestic Labs

  • תל אביב - יפו
  • bag_icon מלאה
  • coins_icon 25,000-40,000 ₪ הערכה מבוססת AI ולא שכר שהתקבל מהמעסיק
    זוהי הערכת טווח שכר מבוססת AI ולא שכר שהתקבל מהמעסיק
  • Indeed
Indeed

The Role

In this high-impact role, you are the bridge between cutting-edge custom silicon and production-grade AI. You will own the end-to-end LLM serving stack on Majestic hardware, architecting everything from serving APIs down to KV cache management, batching, and scheduling. Your primary mission is to port leading frameworks like vLLM and SGLang to our accelerator and optimize them for peak performance. Because our architecture offers memory headroom, you won't just match traditional GPUs; you will shatter their limits on throughput, batch sizes, and context lengths. As you hunt down bottlenecks, your insights will directly steer our future kernel, compiler, and hardware development.

What You'll Own

The serving stack, end to end — bring up and adapt a modern inference framework (vLLM, SGLang, or similar) to run on Majestic hardware.
The runtime hot path — continuous batching, the scheduler, paged KV cache, and prefill/decode disaggregation.
Distributed inference at scale — tensor, pipeline, and expert parallelism across accelerators, wired into our collective communication library (CCL).
The multi-modal pipeline — image, audio, and video preprocessing, encoder integration, and mixed-modality batching.
Inference-time techniques — speculative decoding, prefix caching, and structured decoding.
End-to-end performance — profile, benchmark, and hunt down bottlenecks across the full serving path, feeding findings back to the kernel, compiler, and hardware teams.

Requirements:

What We're Looking For

3+ years building or operating production LLM inference and serving systems (5+ preferred).
Deep, hands-on work with a modern inference framework vLLM, SGLang, TensorRT-LLM, Fireworks, or similar including its scheduler, paged attention / KV cache, model executor, and backend integration points.
Strong Python and C++, with the ability to move fluidly between the two.
A real grasp of transformer inference the prefill/decode split, KV cache behavior, and how batching dynamics shape latency and throughput.
Distributed inference experience tensor and pipeline parallelism across multiple devices.
An instinct for performance you can profile an end-to-end stack and chase a regression from the serving API all the way down to the kernel.


במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

שאלות ותשובות עבור משרת LLM Inference Engineer

מהנדס/ת LLM Inference ב-Majestic Labs יגשר/תגשר בין חומרת סיליקון מותאמת אישית לבין AI ברמת ייצור. התפקיד כולל בעלות על ערימת שירותי ה-LLM מקצה לקצה בחומרת Majestic, אדריכלות הכל החל מממשקי API ועד לניהול מטמון KV, אצווה ותזמון, עם משימה עיקרית של התאמת אופטימיזציה של פריימוורקים מובילים כמו vLLM ו-SGLang למאיץ החברה.

מהנדס/ת LLM Inference יתמקד/תתמקד באופטימיזציה של נתיב הריצה החם, כולל אצווה רציפה, מתזמן, מטמון KV מדורג ופירוק prefill/decode. בנוסף, התפקיד יכלול טיפול בהסקה מבוזרת בקנה מידה גדול, שילוב צינורות מולטי-מודאליים ויישום טכניקות זמן הסקה כמו פענוח ספקולטיבי ו-prefix caching, כל זאת במטרה לאתר צווארי בקבוק ולשפר ביצועים מקצה לקצה.

לצורך תפקיד מהנדס/ת LLM Inference ב-Majestic Labs, נדרשות 3+ שנות ניסיון בבנייה או הפעלה של מערכות הסקה ושרתים של LLM בסביבת ייצור. כמו כן, נדרשת עבודה מעמיקה עם פריימוורקים מודרניים להסקה (כגון vLLM, SGLang), שליטה חזקה ב-Python ו-C++, הבנה מעמיקה של הסקת טרנספורמרים וניסיון בהסקה מבוזרת על פני מספר התקנים.

משרות נוספות מומלצות עבורך
  • רשימת משאלות

    Algorithm Engineer

    • map_icon קיסריה
    ForSight Robotics

    ForSight Robotics

  • רשימת משאלות

    LLM Inference Engineer

    • map_icon תל אביב - יפו
    Majestic Labs ai

    Majestic Labs ai

  • רשימת משאלות

    Machine Learning Software Engineer 234105

    • map_icon באר יעקב
    Experis Israel

    Experis Israel

  • רשימת משאלות

    AI Engineer

    • map_icon תל אביב - יפו
    Check Point Software

    Check Point Software

  • רשימת משאלות

    Senior AI Engineer

    • map_icon תל אביב - יפו
    Check Point Software

    Check Point Software

  • רשימת משאלות

    data Scientist לארגון ממשלתי באזור ירושלים

    • map_icon אריאל
    sqlink

    sqlink

לכל המשרות של מהנדס למידת מכונה

הכשרות רלוונטיות

מכללת INT

מכללת INT

קורס דאטה סיינס / Data Science

הטכניון -  מכון טכנולוגי לישראל

הטכניון - מכון טכנולוגי לישראל

Generative AI and LLM Hands On

  • ערב
  • clk_icon 7 חודשים
Google Reichman Tech School

Google Reichman Tech School

פיתוח מודלים של AI ו-Deep Learning

  • ערב
  • clk_icon 4 חודשים
Developers Institute

Developers Institute

GenAI & Machine Learning Bootcamp

  • בוקר
  • clk_icon 7 חודשים
  • סיבסוד סבסוד

ניתן לצפות במשרות שסימנת בכל שלב תחת התפריט הראשי בקטגוריית 'משרות שאהבתי'

המקום קרן עזריאלי טקסט בעברית עם סמל אינסוף
  • מי אנחנו
  • מעסיקים מובילים
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות

2026 Ⓒ ג'וביפיי - כל הזכויות שמורות

קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service israel_innovation_authority work_office המקום
המערכת בונה את הפרופיל התעסוקתי שלך

עוד רגע...

המערכת זיהתה ששינית את הנתונים באזור האישי ומעדכנת את ההמלצות על תפקידים ומשרות בהתאם.

מצטערים, לא הצלחנו לנתח בהצלחה את הנתונים שהזנת.
אתם מוזמנים לנסות להזין שוב או להעלות קובץ קורות חיים במידה ויש לכם.
בהצלחה

הגעת להגבלה היומית של שלושה עדכונים בפרופיל האישי ביום

loader

הבקשה שלך נשלחה בהצלחה!

יש באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות מיועצת קריירה.

באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות

  • בעיה טכנית

  • סיוע בכתיבת קורות חיים או בהכנה לראיון עבודה

  • התאמה של משרות

  • אחר:

פנייתך נשלחה בהצלחה. נציג מטעם ארגון נכי צהל ייצור איתך קשר בהקדם