החיים בנויים ממולקולות – אבני הבניין הבסיסיות שמרכיבות את כל מה שקיים, כולל אותנו. אבל האם ידעתם שזיהינו רק פחות מ-10% מכל המולקולות הטבעיות?
אם נמצא דרך לגלות את היתר, נוכל להגיע לתגליות מדהימות בתחומים רבים: החל מאבחון וטיפול במחלות, דרך הארכת תוחלת החיים, ועד לפיתוח חומרים וכימיקלים חדשים לסוללות, אלקטרוניקה ועוד. האפשרויות פשוט בלתי מוגבלות.
לאחרונה פורסם מאמר מעניין במיוחד, שמתמקד בפיתוח שיטה חדשה ל"למידה עצמית לייצוג מולקולרי ממיליוני ספקטרום מסה טנדם באמצעות Dreams". מדובר במאמר טכני למדי, אז בואו ננסה לפשט אותו.
מהן בכלל מולקולות טבעיות?
גוף האדם, כמו כל יצור חי, הוא למעשה מעין "נוף כימי" עצום. אפשר לפרק אותו למגוון עצום של מולקולות, שלכל אחת תפקיד אחר וחיוני. למשל, ישנן מולקולות שאחראיות לחילוף החומרים, לריפוי פצעים או למלחמה במחלות. כאמור, עד היום הצלחנו לזהות פחות מ-10% מכל המולקולות הטבעיות הקטנות. זה אומר שישנו יקום שלם של מולקולות שאנחנו בכלל לא מכירים!
אם רק נצליח להבין את ה-90% הנותרים, נוכל לפתוח דלת לדברים מדהימים כמו תרופות חדשות, חומרים חדשניים וכימיקלים פורצי דרך. הבעיה היא שתמיד היה לנו קשה מאוד לזהות את המולקולות האלה. הכלי העיקרי שבו משתמשים מדענים כיום נקרא ספקטרומטריית מסה טנדם בשילוב עם כרומטוגרפיה נוזלית, או בקיצור LCMS. בגדול, הוא מפריד את המולקולות בדגימה ומפרק אותן כדי ליצור ספקטרום ייחודי. אפשר לחשוב על זה כמו טביעת אצבע מולקולרית.
ליצור את ה"טביעת אצבע" הזו זה החלק הקל: אפשר לקחת כמעט כל דבר בעולם, לפרק אותו למולקולות ולמפות אותו לספקטרום. החלק הקשה הוא לפענח את הספקטרום הזה. רק פחות מ-10% מהספקטרום ניתנים לזיהוי ולהתאמה למבנים מולקולריים ידועים. המשמעות היא שיש לנו יותר מ-90% של נתונים "אפלים", שאנחנו פשוט לא יודעים איך לפרש.
יש לנו כמויות עצומות של מידע שנאסף מכל החומרים הטבעיים שאנחנו מצליחים לדגום, אבל אין לנו מושג איך להשתמש במידע הזה.
"חלומות מולקולריים": איך בינה מלאכותית פותרת את החידה
במאמר הזה, החוקרים השתמשו בגישה חדשנית של בינה מלאכותית, שנקראת רשת עצבית Dreams, כדי להתמודד עם האתגר. הרעיון הוא פשוט: לקחת את כל הנתונים שאנחנו לא מצליחים לקרוא, ולאמן בעזרתם בינה מלאכותית שתתחיל למפות את היקום הכימי החבוי הזה, בתקווה לחשוף כמה סודות.
כפי שהבנתם, הבעיה היא לא מחסור בנתונים. יש לנו טונות של ספקטרום כאלה. למעשה, יש לנו מאות מיליוני "טביעות אצבעות מולקולריות" שנאספו מחומרים טבעיים שונים. אנחנו פשוט לא יודעים איך לפענח אותן או להבין את המבנה המולקולרי שעומד מאחוריהן.
במחקר הזה, המדענים השתמשו בשיטת למידה עצמית. אבל אם נשים את הארכיטקטורה המורכבת בצד, מדובר בעצם ברשת עצבית שאומנה לפרש את הספקטרום האלה. במילים אחרות, הבינה המלאכותית מנסה להבין: אילו תכונות צריכות להיות למולקולה שאחראית לספקטרום הספציפי הזה?
אולי אתם תוהים: אם יש לנו את כל הספקטרום האלה, אבל אין לנו את התשובות, איך אפשר לאמן בינה מלאכותית? במילים אחרות, אנחנו לא יודעים את התכונות הכימיות או המבניות של כל המולקולות שמאחורי מאות מיליוני הספקטרום. אז איך אפשר ללמד את הבינה המלאכותית ללמוד את זה? ובכן, אפשר לחשוב על זה כמו ללמוד שפה חדשה רק על ידי קריאת ספרים בשפה הזו. אתם לא צריכים שמישהו יסביר לכם במפורש את המשמעות של כל מילה.
אם תקראו מספיק ספרים בשפה הזו, תתחילו לזהות מילים ודפוסים שחוזרים על עצמם, ובסופו של דבר תתחילו להבין את הדקדוק ואת המשמעות של הכל. זה, בגדול, מה שעושה שלב הלמידה העצמית הזה. מודל הבינה המלאכותית מוזן בכמויות עצומות של נתונים. החוקרים אספו מידע ממאגר נתונים עצום בשם GNPS, וחילצו ממנו כ-201 מיליון ספקטרום לא מתויגים או מזוהים. לאחר מכן, הם "האכילו" את הבינה המלאכותית בכל הנתונים האלה, והיא עברה מיליוני סבבים של למידה עצמית. בסופו של דבר, הבינה המלאכותית לומדת את ה"דקדוק", או את ה"שפה", שמסתתרים מאחורי הספקטרום.
במילים אחרות, היא לומדת איך המולקולות מתפרקות וממופות על הספקטרום. וכך, היא גם לומדת לפענח את התכונות הכימיות או המבניות של המולקולות שאחראיות לספקטרום. חשוב להדגיש: זה לא אומר שהבינה המלאכותית יכולה לנחש את המבנה המולקולרי המדויק רק מספקטרום, אלא שהיא מסוגלת לנחש את התכונות הכימיות, המולקולריות והמבניות של החומר.
אחרי שהבינה המלאכותית למדה לקרוא או לפענח את הספקטרום, היא ממשיכה לפענח את 201 מיליון הספקטרום של מולקולות טבעיות שאנחנו לא יודעים עליהן כלום, ומתחילה למפות כל אחת מהן במרחב רב-ממדי עצום שנקרא "אטלס החלומות".
אז "אטלס החלומות" הוא בעצם מפה שמכילה את כל 201 מיליון המולקולות הטבעיות האלה, יחד עם המולקולות שאנחנו כבר מכירים. המיקום של כל נקודה במפה מבוסס על הדמיון שלה למולקולות אחרות. במילים אחרות, מולקולות עם תכונות דומות יהיו קרובות יותר זו לזו במפה. ואם שתי נקודות רחוקות מאוד זו מזו, זה אומר שהן שונות מאוד מבחינת המבנים או התכונות הכימיות שלהן.
אגב, הרעיון של המיפוי הזה מזכיר את האופן שבו מילים ממופות במודלים גדולים של שפה כמו GPT. לדוגמה, נניח שיש לנו את המילה "מגדל". המילים "שער", "בניין", "גורד שחקים" או "גג" יהיו בערך באותו מרחב ובאותה קטגוריה כמו "מגדל", ולכן יקובצו יחד באותו אשכול בתרשים הרב-ממדי הזה. למרחק ולכיוון בין מילים שונות יש גם משמעות. לדוגמה, המרחק והכיוון בין המילים "גבר" ו"אישה" יהיו בערך זהים לאלה שבין "מלך" ו"מלכה".
בכל מקרה, אפשר לחשוב על "אטלס החלומות" כעל גרסה מורחבת של אותו רעיון. במקום להשתמש בגרף עבור כל המילים בשפה, אנחנו משתמשים בגרף של הספקטרום של כל המולקולות הטבעיות שהצלחנו לחלץ עד כה.
מה אפשר לעשות עם זה?
אחרי שמיפינו את כל המולקולות האלה על גרף הרשת, מה בדיוק אפשר לעשות עם זה? למה זה נחשב לפריצת דרך?
אחת התגליות המעניינות ביותר היא לראות עד כמה האטלס הזה מקושר ומחובר. זה מצביע על כך ש-Dreams הצליחה למצוא קווי דמיון שמקשרים את כל המולקולות האלה יחד, גם עבור מולקולות שמעולם לא זיהינו בעבר (שמהוות יותר מ-90% מכל מה שיש באטלס). במובן מסוים, אפשר לחשוב על זה כמו על מסגרת עבודה או ויקיפדיה עבור כל מולקולה שקיימת.
לדוגמה, אפשר לקחת כל מולקולה טבעית ולפרק אותה באמצעות טכניקת כרומטוגרפיית מסה ספקטרומטרית נוזלית, וכך להפוך אותה לספקטרום. לאחר מכן, אפשר להשתמש בבינה המלאכותית של Dreams כדי למצוא את המיקום שלה בגרף. מהמיקום שלה, אפשר לראות את "השכנים" שלה – הנקודות הקרובות ביותר אליה – ולבדוק אילו תכונות יש להם. כך אפשר לקבל רמזים מיידיים לגבי המולקולה הלא ידועה שלנו. אם היא קרובה מאוד למולקולה ידועה, סביר להניח שהיא דומה לה.
אפשר גם להשתמש באטלס כדי לקבוע עד כמה מולקולה מסוימת חדשה ושונה. אם היא רחוקה מאוד מכל דבר אחר, זה יכול להצביע על כך שמדובר במולקולה עם תכונות שמעולם לא ראינו.
זכרו שב"אטלס החלומות" כלולות גם 10% מהמולקולות שכבר זיהינו. ובכן, מסתבר שישנן נקודות רבות שרחוקות מאוד מכל אחת מהנקודות הידועות האלה. זה אומר שיש כמות עצומה של מולקולות טבעיות ששונות באופן משמעותי ממה שאנחנו מכירים. זה גם מעיד על כך שיש עוד הרבה חידושים כימיים שמחכים להתגלות.
זה יכול להוביל לפיתוח תרופות יעילות יותר, כימיקלים טובים יותר, או חומרים מתקדמים לסוללות ואלקטרוניקה. למעשה, אנחנו רק מתחילים לגרד את פני השטח של מה שאפשרי.
האטלס הזה לא רק ממפה מחדש את העולם הידוע, אלא גם מראה לנו את הממדים והקנה מידה של מה שעדיין לא גילינו.
אבל די עם התיאוריה – בואו נסתכל על כמה דוגמאות אמיתיות לאופן שבו האטלס הזה כבר נמצא בשימוש. החוקרים לקחו מגוון רחב של פריטי מזון, כמו תפוזים, ענבים, עגבניות, אבוקדו, קפה טחון, מים, חלב, צ'יפס, עוגיות אוראו, עוף, הודו, בשר בקר טחון וכו'. הם פירקו את כולם למולקולות ולאחר מכן השתמשו בטכניקת הכרומטוגרפיה הנוזלית כדי ליצור מהמולקולות ספקטרום. לאחר מכן, הם השתמשו בבינה המלאכותית של Dreams ומיקמו את הספקטרום על גרף הרשת. התוצאה הייתה מדהימה: כל פריטי המזון התקבצו בצורה מושלמת בהתאם לסיווג המזון הבסיסי. כל המאכלים הצמחיים התקבצו יחד, המאכלים מהחי היו קרובים זה לזה, והמשקאות יצרו אשכול נפרד.
זה מוכיח שהבינה המלאכותית מסוגלת לסווג מולקולות בהתבסס על התכונות שלהן. הבינה המלאכותית זיהתה, לדוגמה, שבשר בקר טחון והודו קשורים זה לזה יותר מאשר לקפה. חשוב לציין שהבינה המלאכותית הזו לא ידעה דבר על מקורות המזון שממנו הגיעו המולקולות. היא קיבלה רק את הספקטרום של כל המולקולות האלה, ובכל זאת הצליחה לתפוס בצורה מושלמת את היחסים הביולוגיים והכימיים של כל פריטי המזון האלה.
גילויים מרתקים נוספים
באופן מפתיע, החוקרים מצאו קשר הדוק בין פסוריאזיס (שהיא הפרעת עור הגורמת לכתמים אדומים וקשקשיים) לבין קוטל הפטריות esox strobin.
אם נתמקד בנקודה מסוימת באטלס, נראה הרבה מולקולות שונות ולא קשורות, כמו פרי הדר וחומרי הדברה לפירות וירקות. אבל אז נמצא גם את מולקולת הפסוריאזיס שקשורה קשר הדוק ל-exoxy strobin, שהוא כימיקל נפוץ בחקלאות. זה עשוי להצביע על כך שחשיפה לכימיקל הזה עלולה לגרום למצב העור הזה.
חשוב לזכור שהאטלס הזה ממפה רק קורלציות, ולכן אי אפשר להסיק מסקנות חד משמעיות לגבי סיבתיות. אבל היחסים בין שני הדברים האלה עשויים להיות ראויים לבדיקה מעמיקה יותר. במובן מסוים, האטלס מתפקד כמו "מנוע גילוי", שמוצא קווי דמיון מולקולריים מפתיעים בין דברים שונים מאוד. לאחר מכן, אנחנו יכולים לחקור הלאה ולבדוק איך שני הדברים האלה עשויים להיות קשורים.
בנוסף, החוקרים מצאו שמטבוליט צמחי (שהוא בעצם כימיקל שנוצר על ידי הצמח כדי לעזור לו לגדול ולשרוד) מופיע בין כל הסוגים והמינים השונים של צמחים שלכאורה לא קשורים זה לזה, אך כולם חולקים את אותו מטבוליט צמחי.
האטלס גם זיהה משפחה שלמה של ליפידים (שומנים) שקרובה מאוד לסוכרת מסוג 2, וגם לסרטן המוח, סרטן הריאות וסרטן הכליות. שוב, אי אפשר להסיק מסקנות נחרצות, אבל האטלס הזה הוא כמו "מנוע השערות". אנחנו יכולים לבחון את המשפחה הזו של שומנים ולנסות להבין איך היא קשורה לסוגי הסרטן האלה. ואולי, בעקבות כך, נוכל להמציא תרופות חדשות למלחמה בסוגי הסרטן האלה.
התאמת מודל החלומות
בדיוק כמו מודלים רגילים של בינה מלאכותית, אפשר לכוונן את Dreams כדי לחזות תכונות ספציפיות בהתבסס על הספקטרום של מולקולה. החוקרים כיווננו את Dreams כדי לחזות עד כמה מולקולה רלוונטית לכלל החמישה של ליפינסקי (Lipinski's Rule of Five). זהו בעצם אוסף של כללים שקובעים האם כימיקל או מולקולה מתאימים לשמש כתרופה וניתן לספוג אותם היטב בגוף האדם. אולי זה לא נשמע כמו הרבה, אבל תארו לעצמכם שאפשר לקחת טונות של מולקולות טבעיות שאנחנו לא יודעים עליהן כלום, ואז פשוט להריץ אותן דרך הבינה המלאכותית הזו כדי לקבוע אילו מהן יכולות לשמש כמועמדות לתרופות. זהו כלי רב עוצמה.
החוקרים גם כיוונו את Dreams כדי לחזות את נוכחותו של פלואורין במולקולה. למה זה חשוב במיוחד? קודם כל, פלואורין נמצא בשימוש בתעשיות רבות ובחיי היומיום. אם מולקולה מכילה פלואורין, זה לרוב אומר שהתרכובת יציבה מאוד ועמידה בפני חום וכימיקלים. תרכובות כאלה נמצאות בשימוש נרחב בתרופות, בציפויים מונעי הידבקות (כמו טפלון), בחומרי קירור, בפלסטיק בעל ביצועים גבוהים ובייצור אלקטרוניקה (כמו מוליכים למחצה).
אבל הנה הבעיה: קשה מאוד לקבוע אם למולקולה מסוימת יש פלואורין. שיטות קודמות לא הצליחו לחזות זאת בצורה טובה, אבל Dreams הצליחה להתמודד עם זה מצוין. החוקרים כיוונו את המודל כדי לחזות את נוכחות הפלואורין מהספקטרום המולקולרי, והתוצאות היו מרשימות. כאשר Dreams סימנה שמולקולה מכילה פלואורין, היא צדקה ב-91% מהמקרים, בעוד ששיטות ישנות יותר (כמו Sirius) הגיעו לדיוק של 51% בלבד. מדובר בשיפור עצום.
באמצעות Dreams, אנחנו יכולים לקחת יותר מ-200 מיליון מולקולות טבעיות ולסנן את אלה שמכילות פלואורין בוודאות גבוהה למדי. אלה יהיו מולקולות יציבות במיוחד, שניתן יהיה להשתמש בהן ביישומים רבים ושונים.
העתיד כבר כאן
אלה רק כמה דוגמאות שהחוקרים הזכירו במאמר. אפשר לכוונן את המודל עוד יותר כדי לחפש מולקולות בעלות תכונות ספציפיות, כמו מולקולות שיכולות להילחם בסרטן, מולקולות אנטי-אייג'ינג, מולקולות שיכולות להילחם בזיהום או מולקולות שיכולות לעכל פלסטיק. זכרו שאנחנו מכירים רק פחות מ-10% ממה שקיים כרגע. עדיין קיים יקום כימי עצום שאנחנו יכולים לחקור ולנצל.
מדענים יכולים להשתמש באטלס הזה כדי למצוא מועמדים חדשים לתרופות על ידי התבוננות באזורים או באשכולות שקרובים למועמדים לתרופות שאנחנו כבר מכירים. לחלופין, הם יכולים להיכנס לאזורים רחוקים מאוד מכל מה שאנחנו מכירים, ולחשוף מולקולות בעלות תכונות כימיות חדשות לחלוטין.
בנוסף, כרגע הבינה המלאכותית הזו יכולה לקחת ספקטרום ולנחש את התכונות הכימיות וההרכב של המולקולה שאחראית לו. אבל החלום הגדול הוא לאמן בינה מלאכותית שתוכל לקחת את הספקטרום ולחזות את המבנה המלא של המולקולה. עדיין לא הגענו לשם, אבל Dreams הוא צעד חשוב בכיוון הזה.
הדבר המדהים הוא שהקוד פתוח ונגיש לכולם! אפשר למצוא אותו ב-GitHub וב-HuggingFace. הוא מפורסם תחת רישיון MIT, וניתן למצוא שם את כל ההוראות הדרושות לשימוש ב-Dreams כדי למפות ספקטרום מולקולרי על גרף רשת, וכן הוראות לכיצד לכוונן את Dreams כדי לחפש תכונות ספציפיות.
אם אתם מעוניינים בנושאים האלה, תוכלו לעיין גם ב-פוסט הזה על האלפא-אבולושן של גוגל שכבר הובילה לפריצות דרך במתמטיקה ובפיזיקה, או ב-פוסט הזה שמספר על בינה מלאכותית אחרת שיכולה להאיץ את התגליות במדעי החומרים.
תגובות
יש להתחבר כדי להגיב
טוען תגובות...