jobify_logo ×
  • מִשׁתַמֵשׁ
  • התחברות/הרשמה
  • עמוד הבית
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות
קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service work_office המקום
jobify_logo
  • מי אנחנו
  • מעסיקים מובילים
  • פרסום משרה חינם
  • צרו קשר
דילוג לתוכן

עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!

במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

Senior Inference Systems Engineer – KV Cache Optimization

Lightbits Labs

Lightbits Labs Lightbits Labs

  • כפר סבא
  • LinkedIn
LinkedIn

Senior Inference Systems Engineer – KV Cache Optimization

Lightbits Labs

Lightbits Labs Lightbits Labs

  • כפר סבא
  • bag_icon מלאה
  • coins_icon 30,000-45,000 ₪ הערכה מבוססת AI ולא שכר שהתקבל מהמעסיק
    זוהי הערכת טווח שכר מבוססת AI ולא שכר שהתקבל מהמעסיק
  • LinkedIn
LinkedIn


Lightbits is seeking an exceptional Senior Inference Systems Engineer to build advanced infrastructure that improves LLM inference performance through KV cache optimization, offloading, streaming, compression, and scheduling.

In this role, you will work at the intersection of CUDA, GPU architecture, transformer inference, Rust systems programming, and large-scale AI serving platforms. You will design and build systems that intelligently manage KV cache placement across GPU, CPU, storage, and remote memory tiers while maximizing throughput, minimizing latency, and reducing infrastructure costs.

This is a highly hands-on position for someone who enjoys solving deep performance challenges, optimizing every layer of the inference stack, and turning low-level innovations into customer-facing product value. Position based in Israel.

Responsibilities

  • Design and implement KV cache offloading, streaming, and memory management infrastructure for large-scale LLM serving.
  • Build cache-aware scheduling systems that determine when to keep, evict, prefetch, stream, compress, decompress, or recompute KV cache blocks.
  • Optimize inference runtimes such as vLLM and SGLang, including paged attention, prefix caching, schedulers, and cache management systems.
  • Develop mechanisms that overlap IO operations with attention execution to maximize GPU utilization and minimize latency.
  • Build high-performance components in Rust, C++, and CUDA for scheduling, cache coordination, telemetry, and inference optimization.
  • Profile and eliminate bottlenecks across GPU, CPU, memory, networking, storage, and runtime layers.
  • Design benchmark frameworks and performance tests for long-context, streaming, multi-turn, and high-concurrency workloads.
  • Measure and improve key inference metrics including TTFT, TBT/ITL, GPU utilization, cache hit rates, and cost per token.
  • Collaborate closely with Product, Platform, ML, and Engineering teams to deliver production-ready optimization capabilities.

Qulifications and Experience

  • Strong hands-on experience with CUDA programming and GPU performance optimization.
  • Deep understanding of transformer inference, attention mechanisms, KV cache architecture, batching, streaming generation, prefill, and decode.
  • Experience with vLLM, SGLang, TensorRT-LLM, Triton Inference Server, or similar LLM serving frameworks.
  • Experience designing or optimizing KV cache systems, including cache reuse, eviction, prefix caching, radix caching, or cache offloading.
  • Strong systems programming skills in Rust, C++, or both.
  • Strong Python skills for experimentation, benchmarking, and performance analysis.
  • Experience building performance-sensitive schedulers, async IO systems, or distributed infrastructure.
  • Strong debugging and profiling skills using tools such as Nsight, CUDA profiling tools, or custom telemetry systems.
  • Experience with GPUDirect, RDMA, NVMe, cache compression, FlashAttention, paged attention, or distributed inference architectures is a strong advantage.
  • Bachelor’s or Master’s degree in Computer Science, Software Engineering, Electrical Engineering, or a related field.


במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.

מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.

שאלות ותשובות עבור משרת Senior Inference Systems Engineer – KV Cache Optimization

התפקיד המרכזי של מהנדס/ת מערכות היסק בכיר/ה ב-Lightbits Labs הוא לבנות תשתית מתקדמת לשיפור ביצועי היסק של מודלי שפה גדולים (LLM) באמצעות אופטימיזציית מטמון KV, כולל פריקה, הזרמה, דחיסה ותזמון. המטרה היא למקסם תפוקה, למזער חביון ולהפחית עלויות תשתית על ידי ניהול חכם של מיקום מטמון KV על פני GPU, CPU, אחסון וזיכרון מרוחק.

לתפקיד זה נדרשים כישורים חזקים בתכנות CUDA ואופטימיזציית ביצועי GPU, הבנה עמוקה של היסק טרנספורמרים, מנגנוני קשב וארכיטקטורת מטמון KV. כמו כן, נדרש ניסיון עם מסגרות שרת LLM כמו vLLM או SGLang, וכישורי תכנות מערכות חזקים ב-Rust, C++ או שניהם, יחד עם Python לניסויים וניתוח ביצועים.

מהנדס/ת מערכות היסק בכיר/ה תורם/ת למוצר הסופי על ידי תרגום חדשנות ברמה נמוכה לערך מוצר עבור הלקוח. זה כולל תכנון ויישום תשתית לניהול זיכרון, פריקה והזרמת מטמון KV, בניית מערכות תזמון מודעות למטמון, אופטימיזציה של זמני ריצה כמו vLLM, ופיתוח רכיבים בעלי ביצועים גבוהים ב-Rust, C++ ו-CUDA כדי לשפר מדדי היסק מרכזיים כמו TTFT וניצול GPU.

משרות נוספות מומלצות עבורך
  • רשימת משאלות

    Senior Inference Systems Engineer – KV Cache Optimization

    • map_icon תל אביב - יפו
    LightBits

    LightBits

לכל המשרות של Senior Inference Systems Engineer

ניתן לצפות במשרות שסימנת בכל שלב תחת התפריט הראשי בקטגוריית 'משרות שאהבתי'

המקום קרן עזריאלי טקסט בעברית עם סמל אינסוף
  • מי אנחנו
  • מעסיקים מובילים
  • צרו קשר
  • תנאי שימוש
  • מדיניות פרטיות
  • הצהרת נגישות

2026 Ⓒ ג'וביפיי - כל הזכויות שמורות

קרן עזריאלי טקסט בעברית עם סמל אינסוף social_security the_israeli_employment_service israel_innovation_authority work_office המקום
המערכת בונה את הפרופיל התעסוקתי שלך

עוד רגע...

המערכת זיהתה ששינית את הנתונים באזור האישי ומעדכנת את ההמלצות על תפקידים ומשרות בהתאם.

מצטערים, לא הצלחנו לנתח בהצלחה את הנתונים שהזנת.
אתם מוזמנים לנסות להזין שוב או להעלות קובץ קורות חיים במידה ויש לכם.
בהצלחה

הגעת להגבלה היומית של שלושה עדכונים בפרופיל האישי ביום

loader

הבקשה שלך נשלחה בהצלחה!

יש באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות מיועצת קריירה.

באפשרותך לשלוח בקשה לקבלת ייעוץ אישי ללא עלות

  • בעיה טכנית

  • סיוע בכתיבת קורות חיים או בהכנה לראיון עבודה

  • התאמה של משרות

  • אחר:

פנייתך נשלחה בהצלחה. נציג מטעם ארגון נכי צהל ייצור איתך קשר בהקדם