מודלים גדולים של שפה (LLM): מבוא מקיף

בשנה האחרונה, הבינה המלאכותית (AI) שינתה לחלוטין את העולם, עם מוצרים כמו ChatGPT שמשפיעים על כל תעשייה ועל האופן שבו אנשים מקיימים אינטראקציה עם טכנולוגיה. פוסט זה יתמקד ב-LLM: כיצד הם עובדים, שיקולים אתיים, יישומים ועוד.

מהו LLM?

LLM הם ראשי תיבות של Large Language Models (מודלים גדולים של שפה), סוג של רשת עצבית שאומנה על כמויות עצומות של נתוני טקסט. הנתונים מגיעים בדרך כלל ממקורות מקוונים כמו סריקות אינטרנט, ספרים ותמלילים. רשת עצבית היא סדרה של אלגוריתמים שמנסים לזהות דפוסים בנתונים, ומדמים את פעולת מוח האדם. LLM הם סוג ספציפי של רשת עצבית המתמקדת בהבנת שפה טבעית.

LLM לעומת תכנות מסורתי

בתכנות מסורתי, המחשב מקבל סט הוראות מפורשות. לדוגמה, 'אם X, אז Y'. עם LLM, המחשב לומד לא רק איך לעשות דברים, אלא איך ללמוד איך לעשות דברים. גישה זו גמישה יותר ומתאימה ליישומים רבים שתכנות מסורתי אינו יכול להשיג. דוגמה לכך היא זיהוי תמונות. במקום לקודד כל כלל לזיהוי אותיות בכתב יד, AI יכול לקבל דוגמאות רבות של אותיות כתב יד וללמוד להסיק מה נראה כמו אות חדשה על סמך הדוגמאות הללו.

גישה חדשה זו גם גמישה, ניתנת להתאמה וניתנת להרחבה הרבה יותר מתכנות מסורתי. LLM חזקים מאוד במגוון רחב של משימות, כולל סיכום, יצירת טקסט, כתיבה יצירתית, שאלות ותשובות ותכנות.

היסטוריה והתפתחות של LLM

ההיסטוריה של LLM מתחילה בשנת 1966 עם מודל Eliza, מודל השפה הראשון. עם זאת, מודלים של שפה לא התפתחו במשך זמן רב. רשת עצבית חוזרת הראשונה (RNN) נוצרה בשנת 1924, אך היא לא הצליחה ללמוד עד 1972. RNNs היו הטכנולוגיה הראשונה שיכלה לחזות את המילה הבאה במשפט במקום שיהיה לה הכל מתוכנת מראש.

בשנת 2017, צוות Google DeepMind פרסם מאמר מחקר על טכנולוגיה חדשה בשם Transformers. מאמר זה הוביל את המודלים החדשים של OpenAI לפתח את ChatGPT. ארכיטקטורת ה-Transformers החדשה הייתה מתקדמת בהרבה, דרשה זמן אימון מופחת והכילה תכונות רבות אחרות כמו תשומת לב עצמית. Transformers איפשרו מודלים גדולים של שפה שאומנו מראש כמו GPT-1, שפותח על ידי OpenAI בשנת 2018. אחריו, בשנת 2018, יצא Bert עם 340 מיליון פרמטרים, שהכיל דו-כיווניות, מה שאפשר לו לעבד טקסט בשני הכיוונים, ובכך לקבל הבנה טובה יותר של ההקשר.

לאחר מכן, LLM לא פיתחו טכנולוגיה חדשה רבה, אלא גדלו מאוד בקנה מידה. GPT-2 יצא בתחילת 2019 עם 2.5 מיליארד פרמטרים, ואז GPT-3 ביוני 2020 עם 175 מיליארד פרמטרים. בשלב זה הציבור החל לשים לב למודלים גדולים של שפה. ChatGPT הפך פופולרי מכיוון שהוא היה מדויק יותר מכל מה שמישהו ראה בעבר, מכיוון שהוא נבנה בפורמט צ'אטבוט.

ChatGPT 3.5 יצא בדצמבר 2022 והחל את גל ה-AI הנוכחי. במרץ 2023 יצא GPT-4, שהכיל כ-1.76 טריליון פרמטרים והשתמש ככל הנראה בגישה של תערובת מומחים, שבה ישנם מספר מודלים מכווננים לתרחישי שימוש ספציפיים. זה מוסיף גם ריבוי מודלים ותכונות אחרות. (קראו על פענוח מודלי OpenAI).

איך LLM עובדים

התהליך שבו מודלים גדולים של שפה עובדים יכול להתחלק לשלושה שלבים. השלב הראשון הוא טוקניזציה, שבו רשתות עצביות מאומנות לחלק טקסט ארוך לאסימונים בודדים. אסימון הוא בערך 3/4 של מילה. טוקניזציה שונה עבור כל מודל, אך היא נעשית כך שהמודלים יכולים להבין כל מילה בנפרד, בדיוק כמו בני אדם. השלב השני הוא הטבעה (embeddings), שבו מודלים גדולים של שפה הופכים את האסימונים הללו לווקטורי הטבעה, שהם ייצוגים מספריים של האסימונים הללו. זה מקל על המחשב לקרוא ולהבין כל מילה וכיצד המילים השונות קשורות זו לזו.

השלב האחרון הוא Transformers. הטבעות מילים ממוקמות במסד נתונים וקטורי. מכיוון שהם מומרים לווקטורים, הם יכולים לראות בקלות אילו מילים קשורות למילים אחרות בהתבסס על מידת הדמיון שלהן. מסדי נתונים וקטוריים לוכדים את הקשר בין נתונים כווקטורים במרחב רב-ממדי. כל מילה הופכת לווקטור, ולוכדת משמעות סמנטית ויחסים למילים אחרות.

ייצוגי מטריצה ניתנים ליצירה מהווקטורים הללו. זה נעשה על ידי חילוץ מידע מהמספרים והצבת כל המידע במטריצה באמצעות אלגוריתם הנקרא multihead attention. הפלט של אלגוריתם multihead attention הוא סדרה של מספרים שאומרים למודל עד כמה המילים והסדר שלהן תורמים למשפט בכללותו. אנחנו משנים את מטריצת הקלט למטריצת פלט, שתתאים למילה בעלת אותם ערכים כמו מטריצת הפלט הזו. השינוי הזה נעשה על ידי האלגוריתם שנוצר במהלך תהליך ההכשרה. Transformers משתמשים במנגנון תשומת לב כדי להבין את ההקשר של מילים בתוך משפט. זה כרוך בחישובים עם תוצר הנקודה, שהוא בעצם מספר המייצג עד כמה המילה תרמה למשפט.

איך LLM מאומנים

השלב הראשון בהכשרת מודל שפה גדול הוא איסוף הנתונים. אתה צריך הרבה נתונים. כאשר אנו אומרים מיליארדי פרמטרים, זה רק מדד לכמות הנתונים שנכנסים בפועל להכשרת המודלים הללו. הנתונים נלקחים מדפי אינטרנט, ספרים, שיחות, פוסטים ברדיט, ציוצים וכו'.

ישנו מדע שלם מאחורי עיבוד מוקדם של נתונים, שמכין את הנתונים לשימוש לאימון מודל, החל מבחינת איכות הנתונים ועד לתיוג עקביות, ניקוי נתונים, טרנספורמציה של נתונים והפחתת נתונים. תהליך זה יכול לקחת הרבה זמן ותלוי בסוג המכונה, כוח העיבוד, גודל מערך הנתונים ומספר שלבי העיבוד המוקדם. חברות בונות חומרה המותאמת במיוחד למתמטיקה מאחורי מודלים גדולים של שפה. כך, הזמן הכולל לעיבוד מודלים פוחת, אך גודל המודלים גדל. כדי לאמן את המודלים הללו, זה יקר מאוד מכיוון שאתה צריך הרבה כוח עיבוד, חשמל, והשבבים האלה לא זולים.

בתהליך ההכשרה, נתוני הטקסט המעובדים מראש מוזנים למודל, והוא מנסה לחזות את המילה הבאה בהתבסס על ההקשר של הנתונים הללו. לאחר מכן הוא יתאים את משקולות המודל כדי לקבל את הפלט הטוב ביותר. תהליך זה חוזר על עצמו מיליוני פעמים עד שמגיעים לאיכות אופטימלית. השלב האחרון הוא הערכה, שבו כמות קטנה של נתונים מוקצה להערכה, והמודל נבדק על מערך נתונים זה לביצועים. המדד המשמש לקביעת יעילות המודל נקרא perplexity. נעשה שימוש גם ב-RLHF (Reinforcement Learning through Human Feedback), שבו משתמשים או בודקים בודקים בפועל את המודל ומספקים ציונים חיוביים או שליליים המבוססים על הפלט.

כוונון עדין

כוונון עדין מאפשר לנו לקחת את המודלים הגולמיים האלה ולכוונן אותם למקרי השימוש הספציפיים שלנו. לדוגמה, אתה יכול לכוונן מודל כדי שיוכל לקבל הזמנות פיצה, לענות על שאלות על פיצה ולאפשר ללקוחות לקנות פיצה. ניתן לקחת מודל מאומן מראש ולכוונן אותו לשיפור משימות מסוימות. המודל מעדכן את המשקולות כדי להבין טוב יותר את מונחי הפיצה, השאלות, התגובות, הטון וכו'. כוונון עדין מהיר בהרבה מהכשרה מלאה, ומייצר דיוק גבוה יותר.

מגבלות ואתגרים של LLM

ל-LLM עדיין יש מגבלות רבות, כמו מתמטיקה, היגיון והסקה. הטיה ובטיחות ממשיכות להיות בעיה גדולה מכיוון שהמודלים מאומנים על נתונים שנוצרו על ידי בני אדם, אשר פגומים באופן טבעי. מערכי נתונים אלה עשויים לכלול מידע מזיק או מוטה. מגבלה גדולה נוספת היא העובדה שלמודלים יש רק ידע עד לנקודה שבה התרחשה ההכשרה שלהם. אתגר גדול עבור LLM הוא הזיות, מה שאומר שלפעמים הם פשוט ממציאים דברים או טועים לחלוטין. בנוסף, LLM צורכים חומרה רבה, וישנם שיקולים אתיים רבים שיש לקחת בחשבון. (קראו על עתיד פיתוח התוכנה והאתגרים).

למודלים מאומנים על חומרים המוגנים בזכויות יוצרים, וישנן פעולות מזיקות שיכולות להיגרם על ידי מודלים. ניתן להשתמש במודלים גדולים של שפה כדי לרמות אחרים, ליצור קמפיינים עצומים של דיסאינפורמציה ודיסאינפורמציה, כולל תמונות מזויפות, טקסט מזויף, דעות מזויפות. כמעט כל כוח העבודה צווארון לבן עומד להיות מופרע על ידי מודלים גדולים של שפה. יש גם את הנושא של AGI, מה קורה כאשר AI הופך להיות כל כך חכם ואולי אפילו מתחיל לחשוב בעצמו.

Agentic RAG: הדור הבא של שליפת מידע חכמה

ניתן להשתמש במודלים גדולים של שפה למגוון רחב של משימות, לא רק לצ'אטבוטים. ניתן להשתמש בהם לתרגום שפות, קידוד, עזרי תכנות, סיכום, שאלות ותשובות, כתיבת חיבורים, תרגום ואפילו יצירת תמונות ווידאו. בעצם כל סוג של בעיית חשיבה שאדם יכול לעשות עם מחשב, LLM יכולים גם לעשות, אם לא היום, אז בקרוב בעתיד.

התקדמות ומחקרים נוכחיים

כיום יש הרבה דיבורים על זיקוק ידע, שאומר בעצם להעביר ידע מפתח ממודלים חדישים גדולים מאוד למודלים קטנים ויעילים יותר. יש גם הרבה מחקרים והדגשות על RAG (Retrieval Augmented Generation), מה שאומר שנותנים למודלים גדולים של שפה את היכולת לחפש מידע מחוץ לנתונים שאומנו עליהם. (קראו על Agentic RAG).

שיקולים אתיים

המודלים מאומנים על חומרים המוגנים בזכויות יוצרים, וישנן פעולות מזיקות שיכולות להיגרם על ידי מודלים. ניתן להשתמש במודלים גדולים של שפה כדי לרמות אחרים, ליצור קמפיינים עצומים של דיסאינפורמציה ודיסאינפורמציה, כולל תמונות מזויפות, טקסט מזויף, דעות מזויפות. כמעט כל כוח העבודה צווארון לבן עומד להיות מופרע על ידי מודלים גדולים של שפה. יש גם את הנושא של AGI, מה קורה כאשר AI הופך להיות כל כך חכם ואולי אפילו מתחיל לחשוב בעצמו.

שבוע עמוס במיוחד בעולם הבינה המלאכותית

ישנן מספר דרכים שבהן ניתן לשפר מודלים גדולים של שפה. ראשית, הם יכולים לבדוק עובדות בעצמם באמצעות מידע שנאסף מהאינטרנט. מודלים יכולים גם להריץ תערובת של מומחים. יש גם הרבה עבודה על ריבוי מודלים, כך שלוקחים קלט מקול, מתמונות, מסרטונים, מכל מקור קלט אפשרי ויוצרים פלט יחיד ממנו. בנוסף, נעשית עבודה רבה לשיפור יכולת החשיבה, שבה גורמים למודלים לחשוב לאט צעד אחר צעד, במקום לנסות לקפוץ למסקנה הסופית באופן מיידי (ראה מפת הדרכים ל-AI). (קרא על חישוב בזמן שינה לייעול).