MAGI-1: מהפכה ביצירת וידאו עם AI בקוד פתוח?
עולם יצירת הוידאו באמצעות בינה מלאכותית (AI) מתפתח בקצב מסחרר, ולאחרונה הצטרף שחקן חדש ומבטיח במיוחד: MAGI-1, מודל קוד פתוח מבית היוצר של Sand AI. הדוגמאות הראשונות שפורסמו מציגות יכולות שנראות כמעט לא מציאותיות באיכותן, ומעוררות סקרנות רבה.
מה מיוחד ב-MAGI-1?
Sand AI טוענים ש-MAGI-1 מציע מספר יתרונות פורצי דרך:
- ריאליזם ודינמיקה: הדוגמאות הראשוניות, כמו זו של ילדה המניחה ראשה על צמח והוא מגיב בתנועה פיזיקלית משכנעת, מציגות רמת ריאליזם גבוהה, ללא תחושת ההילוך האיטי שאפיינה מודלים קודמים. הבעות הפנים והפרטים הקטנים נראים אמינים להפליא.
- הרחבה אינסופית (Infinite Extension): MAGI-1 מתיימר להיות המודל היחיד המאפשר הרחבה אינסופית של סרטונים בצורה חלקה, ללא צורך בחיבורים מלאכותיים. בעוד שמודלים אחרים מאפשרים המשכיות מפריים לפריים, הארכיטקטורה של MAGI-1 אמורה לאפשר זאת באופן טבעי יותר, תוך התחשבות בהקשר של הסרטון כולו.
- שליטה מדויקת בציר הזמן (Precision Timeline Control): המפתחים טוענים ליכולת שליטה בציר הזמן ברמת השנייה, המאפשרת לעצב כל רגע בדיוק לפי החזון. דוגמה לכך היא סרטון של עין סייבורגית ענקית בעיר עתידנית, הממצמצת וזזה באופן מצמרר ומדויק.
- ביצוע מדויק של הנחיות (Precise Prompt Execution): המודל שואף לביצועים מובילים בתעשייה בהבנה וביצוע של הנחיות טקסטואליות מורכבות, כפי שמודגם ביצירת סרטון של נגנית כינור בתנועות מהירות וטבעיות.
קוד פתוח במלוא מובן המילה
אחד ההיבטים המרגשים ביותר ב-MAGI-1 הוא היותו קוד פתוח לחלוטין. המשמעות היא שגם משקולות המודל (model weights) וגם קוד ההרצה (inference code) זמינים להורדה בחינם. זוהי בשורה משמעותית, שכן מודלים ברמת איכות כזו נשמרים לרוב כקנייניים.
הטכנולוגיה מאחורי הקלעים
MAGI-1 מייצר וידאו באופן אוטו-רגרסיבי (auto-regressively). הוא חוזה רצף של "מקטעי וידאו" (video chunks), שהם למעשה קטעים באורך קבוע של פריימים עוקבים. הוא מאומן לבצע תהליך של "הסרת רעשים" (denoising) לכל מקטע, כאשר הרעש מתוכנן לגדול באופן מונוטוני לאורך זמן. תהליך זה, המבוסס על ארכיטקטורת טרנספורמר (Transformer-based VAE) ואלגוריתם הסרת רעשים אוטו-רגרסיבי ייחודי, מאפשר יצירה הדרגתית ועיבוד מקביל של עד ארבעה מקטעים בו-זמנית, מה שתורם לעקביות התנועה והמעברים.
השוואות וביצועים
Sand AI ערכו הערכות פנימיות בהן השוו את MAGI-1 למודלי קוד פתוח מובילים אחרים כמו Halu, Huan Video, WAN 2.1 ו-Cling (גרסה 1.6). התוצאות הראו יתרון ל-MAGI-1 ברוב המדדים (איכות תנועה, מעקב אחר הנחיות, איכות ויזואלית) מול Halu ו-Huan, אם כי הפער מול Halu היה קטן יחסית. באופן מפתיע, Cling 1.6 הראה ביצועים תחרותיים ואף עליונות קלה בחלק מההערכות הכוללות. בהשוואה לWAN 2.1, שנחשב עד כה למודל הקוד הפתוח האיכותי ביותר, MAGI-1 הראה יתרון קל.
הדגמה מרשימה
סרטון הדגמה מקצועי נוסף מציג את יכולות המודל בצורה מרשימה, עם דמות עקבית של שחקן AI המופיע במגוון סצנות דינמיות ומורכבות – מקרבות חרבות לתקופות קדומות, ריקודים, לחימה בדרקונים ותפיסת כדורים באוויר.
הרצה מקומית ופלטפורמה מקוונת
לצד הקוד הפתוח, Sand AI מציעים גם פלטפורמה מקוונת לשימוש במודל. אם תרצו להריץ את MAGI-1 באופן מקומי, הדרישות משמעותיות:
- MAGI-1 4.5B (הגרסה הקטנה): דורשת כרטיס מסך RTX 4090 (עם 24GB VRAM).
- גרסאות 24B (גדולות יותר): דורשות חומרת שרתים חזקה, החל מ-4 כרטיסי H100/H800 או 8 כרטיסי RTX 4090.
סביר להניח שקהילת הקוד הפתוח תמצא דרכים לאופטימיזציה והתאמה של המודלים גם לחומרה צנועה יותר בעתיד.
הפלטפורמה המקוונת של Sand AI מציעה תוכנית התנסות חינמית (500 קרדיטים) וממשק מבוסס "קנבס" ליצירת סרטונים. התמחור מתחיל מ-$10 לחודש עבור 1,500 קרדיטים (כ-2.5 דקות וידאו באיכות גבוהה), ונחשב תחרותי יחסית לשירותי AI video אחרים.
התנסות ראשונית ומחשבות
בבדיקות ראשוניות בפלטפורמה, התוצאות היו מעורבות. המודל הצליח לשמור על עקביות בפרטים מאתגרים (כמו דמות ללא זרועות), אך גם הראה קשיים בשמירה על עקביות אובייקטים (כמו מכונית) או ביצירת אנימציות מורכבות שהתפרקו. נראה שהמודל רגיש לניסוח ההנחיות (prompts) וייתכן שדורש גישה שונה מזו המוכרת ממודלים אחרים, ככל הנראה בשל הארכיטקטורה האוטו-רגרסיבית הייחודית שלו.
לדוגמה, בקשה ללימון הנופל מהתקרה ונכנס לפי הדמות הסתיימה בלימון המרחף מול הפנים וקונפטי היורד מהשמיים. בקשה למכונית שנוסעת במהירות הציגה חוסר עקביות בתחילת הסרטון, אך החלק של הנסיעה המהירה עם שובל עשן ואש היה מרשים. אנימציית רובוט בחלל הציגה עיוותים ו"גליצ'ים" רבים.
סיכום: האם MAGI-1 הוא המלך החדש?
MAGI-1 הוא ללא ספק מודל מרשים ובעל פוטנציאל אדיר. הוא מסוגל לייצר תוצרים פנומנליים, ריאליסטיים ובעלי איכות גבוהה, והיכולת להרחבה אינסופית היא יתרון משמעותי. היותו קוד פתוח מלא הוא בונוס עצום לקהילה.
עם זאת, מההתנסות הראשונית נראה שהוא פחות אינטואיטיבי וקל לשליטה בהשוואה למודלים כמו Gen-4 (שנחשב קל יותר לשימוש) או WAN 2.1 (שנהנה מתמיכה קהילתית רחבה וזרימות עבודה מבוססות). MAGI-1 מרגיש כרגע כמו "חיה פראית" – חזק מאוד, אך דורש למידה ותרגול כדי לרתום את כוחו ביעילות.
רק הזמן וההתנסות של הקהילה יגלו את מלוא הפוטנציאל של MAGI-1. בינתיים, הוא בהחלט מהווה תוספת מרגשת וחשובה לארסנל כלי יצירת הוידאו בקוד פתוח.
תגובות
יש להתחבר כדי להגיב