עדיין מחפשים עבודה במנועי חיפוש? הגיע הזמן להשתדרג!
במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.
מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.
Introduction
At IBM work is more than a job - it’s a calling: To build. To design. To code. To consult. To think along with clients and sell. To make markets. To invent. To collaborate. Not just to do something better, but to attempt things you’ve never thought possible. Are you ready to lead in this new era of technology and solve some of the world’s most challenging problems? If so, let’s talk.
Your Role And Responsibilities
We are looking for a highly motivated PhD or MSc student to join our team for a summer internship focused on cost-efficient serving of large-scale AI inference workloads.
The internship will explore advanced routing strategies and KV-cache–aware optimizations in distributed inference systems, with an emphasis on improving performance, scalability, and GPU cost efficiency.
What you will work on
- Designing and evaluating routing algorithms to optimize inference latency, throughput, and cost
- Investigating KV cache management strategies for large-scale, distributed inference serving
- Prototyping, benchmarking, and analyzing inference optimization techniques
- Working with modern inference frameworks and real production-like workloads
This internship offers a unique opportunity to work at the intersection of AI systems and distributed infrastructure, with real-world impact on scalable, cost-efficient inference serving used in production environments.
Required Technical And Professional Expertise
- MSc or PhD student in Computer Science, Machine Learning Systems, or a related field
- Strong background or interest in distributed systems, systems research, or ML infrastructure
- Strong programming skills (Python, Go, or similar)
- Hands-on experience or familiarity with vLLM (architecture, KV cache behavior, scheduling, or extensions)
- Interest in AI infrastructure, performance optimization, and cost efficiency
- Ability to work independently while collaborating effectively within a research and engineering team
Preferred Technical And Professional Experience
- Experience with Kubernetes (K8s) and cloud-native systems
- Familiarity with inference serving stacks, networking, or GPU-based systems
- Experience with benchmarking, profiling, or performance analysis
במקום לעבור לבד על אלפי מודעות, Jobify מנתחת את קורות החיים שלך ומציגה לך רק משרות שבאמת מתאימות לך.
מעל 80,000 משרות • 4,000 חדשות ביום
חינם. בלי פרסומות. בלי אותיות קטנות.
שאלות ותשובות עבור משרת Cost-Efficient Inference Serving and Routing Optimization- MSc and PHD-Summer internship 2026- Research Lab
התמחות הקיץ ב-IBM מתמקדת באופטימיזציה של הגשת הסקות AI בקנה מידה גדול באופן חסכוני. המחקר יכלול אסטרטגיות ניתוב מתקדמות ואופטימיזציות מודעות ל-KV-cache במערכות הסקה מבוזרות, במטרה לשפר ביצועים, מדרגיות ויעילות עלויות של GPU.
משרות נוספות מומלצות עבורך
-
AI Researcher (AV) - Summer Internship
-
הרצליה
General Motors
-
-
AI Platform- MSc and PHD-Summer internship 2026- Research Lab
-
חיפה
IBM
-
-
AI Platform- MSc and PHD-Summer internship 2026- Research Lab
-
גבעתיים
IBM
-
-
Cost-Efficient Inference Serving and Routing Optimization- MSc and PHD-Summer internship 2026- Research Lab
-
חיפה
IBM
-
-
AI Video Research Engineer Intern
-
תל אביב - יפו
Tether.io
-
-
AI Video Research Engineer Intern
-
תל אביב - יפו
Tether Operations Limited
-
12,000-17,000 ₪