jobify_logo ×
  • מִשׁתַמֵשׁ
  • התחברות/הרשמה
  • עמוד הבית
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות
קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service work_office המקום
jobify_logo
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
דילוג לתוכן

עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!

במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

LLM Inference Engineer

Majestic Labs ai

Majestic Labs ai Majestic Labs ai

  • תל אביב - יפו
  • LinkedIn
LinkedIn

LLM Inference Engineer

Majestic Labs ai

Majestic Labs ai Majestic Labs ai

  • תל אביב - יפו
  • bag_icon מלאה
  • coins_icon 25,000-40,000 ₪ הערכה מבוססת AI ולא שכר שהתקבל מהמעסיק
    זוהי הערכת טווח שכר מבוססת AI ולא שכר שהתקבל מהמעסיק
  • LinkedIn
LinkedIn


The Role

In this high-impact role, you are the bridge between cutting-edge custom silicon and production-grade AI. You will own the end-to-end LLM serving stack on Majestic hardware, architecting everything from serving APIs down to KV cache management, batching, and scheduling. Your primary mission is to port leading frameworks like vLLM and SGLang to our accelerator and optimize them for peak performance. Because our architecture offers memory headroom, you won't just match traditional GPUs; you will shatter their limits on throughput, batch sizes, and context lengths. As you hunt down bottlenecks, your insights will directly steer our future kernel, compiler, and hardware development.

What You'll Own

  • The serving stack, end to end — bring up and adapt a modern inference framework (vLLM, SGLang, or similar) to run on Majestic hardware.
  • The runtime hot path — continuous batching, the scheduler, paged KV cache, and prefill/decode disaggregation.
  • Distributed inference at scale — tensor, pipeline, and expert parallelism across accelerators, wired into our collective communication library (CCL).
  • The multi-modal pipeline — image, audio, and video preprocessing, encoder integration, and mixed-modality batching.
  • Inference-time techniques — speculative decoding, prefix caching, and structured decoding.
  • End-to-end performance — profile, benchmark, and hunt down bottlenecks across the full serving path, feeding findings back to the kernel, compiler, and hardware teams.

Requirements:

What We're Looking For

  • 3+ years building or operating production LLM inference and serving systems (5+ preferred).
  • Deep, hands-on work with a modern inference framework vLLM, SGLang, TensorRT-LLM, Fireworks, or similar including its scheduler, paged attention / KV cache, model executor, and backend integration points.
  • Strong Python and C++, with the ability to move fluidly between the two.
  • A real grasp of transformer inference the prefill/decode split, KV cache behavior, and how batching dynamics shape latency and throughput.
  • Distributed inference experience tensor and pipeline parallelism across multiple devices.
  • An instinct for performance you can profile an end-to-end stack and chase a regression from the serving API all the way down to the kernel.


במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

שאלות ותשובות עבור משרת LLM Inference Engineer

התפקיד המרכזי של מהנדס/ת LLM Inference ב-Majestic Labs AI הוא לגשר בין חומרת סיליקון מותאמת אישית לבין בינה מלאכותית ברמת ייצור. זה כולל בעלות על ערימת שירותי ה-LLM מקצה לקצה על חומרת Majestic, אדריכלות הכל החל מממשקי API ועד לניהול מטמון KV, אצווה ותזמון, עם משימה עיקרית של התאמת אופטימיזציה של פריימוורקים מובילים כמו vLLM ו-SGLang למאיץ שלהם.

מהנדס/ת LLM Inference תורם/ת לשיפור ביצועים על ידי אופטימיזציה של פריימוורקים קיימים והתאמתם לחומרת Majestic, תוך ניצול יתרונות הזיכרון של הארכיטקטורה כדי לשבור את מגבלות המעבר, גודל האצווה ואורך ההקשר של GPUs מסורתיים. התובנות שלהם מחיפוש צווארי בקבוק מזינות ישירות את פיתוח הליבה, המהדר והחומרה העתידיים של החברה.

בפרויקט זה, מהנדס/ת LLM Inference ינהל/ת מגוון רחב של טכניקות וטכנולוגיות, כולל ערימת השירותים מקצה לקצה, נתיב הריצה החם (אצווה רציפה, מתזמן, מטמון KV מדורג), הסקה מבוזרת בקנה מידה (מקביליות טנסור, צינור ומומחים), צינור מולטי-מודאלי (עיבוד מקדים של תמונות, אודיו ווידאו), וטכניקות זמן הסקה כמו פענוח ספקולטיבי ו-prefix caching.

לכל המשרות של AI Inference Engineer

הכשרות רלוונטיות

מכללת INT

מכללת INT

קורס דאטה סיינס / Data Science

הטכניון -  מכון טכנולוגי לישראל

הטכניון - מכון טכנולוגי לישראל

Generative AI and LLM Hands On

  • ערב
  • clk_icon 7 חודשים
Google Reichman Tech School

Google Reichman Tech School

פיתוח מודלים של AI ו-Deep Learning

  • ערב
  • clk_icon 4 חודשים
Developers Institute

Developers Institute

GenAI & Machine Learning Bootcamp

  • בוקר
  • clk_icon 7 חודשים
  • סיבסוד סבסוד

ניתן לצפות במשרות שסימנת בכל שלב תחת התפריט הראשי בקטגוריית 'משרות שאהבתי'

המקום קרן עזריאלי טקסט בעברית עם סמל אינסוף
  • מי אנחנו
  • מעסיקים מובילים
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות

2026 Ⓒ ג'וביפיי - כל הזכויות שמורות

קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service israel_innovation_authority work_office המקום
המערכת בונה את הפרופיל התעסוקתי שלך

עוד רגע...

המערכת זיהתה ששינית את הנתונים באזור האישי ומעדכנת את ההמלצות על תפקידים ומשרות בהתאם.

מצטערים, לא הצלחנו לנתח בהצלחה את הנתונים שהזנת.
אתם מוזמנים לנסות להזין שוב או להעלות קובץ קורות חיים במידה ויש לכם.
בהצלחה

הגעת להגבלה היומית של שלושה עדכונים בפרופיל האישי ביום

loader

הבקשה שלך נשלחה בהצלחה!

יש באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות מיועצת קריירה.

באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות

  • בעיה טכנית

  • סיוע בכתיבת קורות חיים או בהכנה לראיון עבודה

  • התאמה של משרות

  • אחר:

פנייתך נשלחה בהצלחה. נציג מטעם ארגון נכי צהל ייצור איתך קשר בהקדם