עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!
במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.
מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.
What you will work on
Designing and evaluating routing algorithms to optimize inference latency, throughput, and cost
Investigating KV cache management strategies for large-scale, distributed inference serving
Prototyping, benchmarking, and analyzing inference optimization techniques
Working with modern inference frameworks and real production-like workloads
Why join us?
This internship offers a unique opportunity to work at the intersection of AI systems and distributed infrastructure, with real-world impact on scalable, cost-efficient inference serving used in production environments.
Bachelor's Degree
Required technical and professional expertise
MSc or PhD student in Computer Science, Machine Learning Systems, or a related field
Strong background or interest in distributed systems, systems research, or ML infrastructure
Strong programming skills (Python, Go, or similar)
Hands-on experience or familiarity with vLLM (architecture, KV cache behavior, scheduling, or extensions)
Interest in AI infrastructure, performance optimization, and cost efficiency
Ability to work independently while collaborating effectively within a research and engineering team
Please include your grade sheet with your application.
Preferred technical and professional experience
Experience with Kubernetes (K8s) and cloud-native systems
Familiarity with inference serving stacks, networking, or GPU-based systems
Experience with benchmarking, profiling, or performance analysis
במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.
מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.
משרות נוספות מומלצות עבורך
-
Research Intern - Agentic Video Understanding
-
הרצליה
Apple
-
-
Research Intern — Agentic Video Understanding
-
הרצליה
Apple
-
-
Cost-Efficient Inference Serving and Routing Optimization- MSc and PHD-Summer internship 2026- Research Lab
-
גבעתיים
IBM
-
-
Cost-Efficient Inference Serving and Routing Optimization- MSc and PHD-Summer internship 2026- Research Lab
-
חיפה
IBM
-
-
AI Video Research Engineer Intern
-
תל אביב - יפו
Tether.io
-
-
AI Video Research Engineer Intern
-
תל אביב - יפו
Tether Operations Limited
-
12,000-18,000 ₪