|
||||
|
||||
תודה על התגובה המושקעת. ברצוני לשאול על משהו שעורר את סקרנותי. לי נראה מובן מאליו שכל אלגוריתם המנסה ל"הבין" סרט על בסיס של סדרת תמונות בודדות הוא שגוי מיסודו. לראיה, אפשר לקחת סדרת תמונות ולערבב אותה. ברור שרוב הסידורים החדשים יהיו חסרי ערך כסרט רציף. האם ריבוי השכבות כולל בתוכו גם השהיית תמונה בין שכבה לשכבה, כך שכל תוצאה של העיבוד היא בהשהיה מסויימת תוצאה של תמונה מסוימת ועוד הרבה תמונות לפניה שנמצאות באותו זמן במערכת (בשכבות השונות)? כמה כבדה מערכת "הבנת תמונה" על בסיס רשת נוירונים עמוקה? האם מערכת כזו יכולה לזהות מכשול מסוכן/לא מסוכן בסקאלת זמן של מאיות שנייה? |
|
||||
|
||||
הרחבת השאלה של שוקי: האם יש גם רשתות נוירונים עם מצבים פנימיים שיכולים לבטא במידה כלשהי את ההקשר? בעיקרון אני יכול לדמיין רשת עם משוב, כלומר שחלק מהפלט שלה מצטרף אל הקלט של האיטרציה הבאה אבל יש לי הרגשה שאני not even wrong. |
|
||||
|
||||
not even wrong? תיארת בגדול את הסכמה הנפוצה ביותר להתמודד עם הסיטואציה. לרשתות כאלה - שמופעלות איטרטיבית ובכל צעד הקלט שלהן כולל בין השאר (בנוסף לתצפיות, בד"כ) גם קידוד של "המצב הנוכחי", והפלט שלהן כולל בין השאר (בנוסף לתחזיות, בד"כ) גם את הקידוד של "המצב החדש" - קוראים RNNs (ר"ת של Recurrent Neural Networks). אפשר לחשוב עליהן בתור הכללה של מודלי state-space קלאסיים כמו ה-Kalman filter או Hidden Markov Models. האימון והתכנון שלהן נוטה להיות טריקי; הן באופן כללי צריכות גם ללמוד כיצד ה-latent state קשור לתצפיות, וגם ללמוד את הדינמיקה בה ה-latent-state משתנה עם הזמן (זאת בנוסף לאתגרים טכניים אחרים שהן מציבות). אבל יש סט-גדול של טכניקות סטנדרטיות (יותר או פחות) לעשות זאת, והן בהחלט מעשיות. רשתות מהסוג הזה הן מאד שימושיות, ולא רק עבור נתונים עם מבנה טמפורלי ברור. אפשר להשתמש בהן למשל גם כדי לנתח תמונות ע"י סריקה סדרתית של חלקים מתוכן, או כדי לנתח משפטים בשפות טבעיות ע"י סריקה של סדרת המילים. באופן כללי, הרשתות הפשוטות והמוכרות ביותר מתנהגות כמו "פונקציה מתמטית": הן מפה בין קלט לפלט. אך ישנן ארכיטקטורות אחרות שאינן כאלה, שהן stateful, ופעולתן אולי דומה יותר להרצה של תכנית מחשב. RNNs למינהן (כפי שהצעת) הן הסוג הנפוץ ביותר של רשתות כאלה, אך יש גם סוגים אחרים. |
|
||||
|
||||
אתה יכול להוסיף או לתת הפניה לשימוש ב RNN ב NLP? |
|
||||
|
||||
זה נושא מיינסטרימי. הבעיה אינו למצוא רפרנס, אלא לברור ביניהם, ולצערי אין לי איזה "רפרנס אולטמטיבי". תוכל למצוא סקירה טכנית עם הרבה הפניות נוספות בפרק העשירי כאן, וספציפית, בהקשר של NLP, אני מניח שתתעניין בעיקר ב-sequence to sequence models. |
|
||||
|
||||
תודה. |
|
||||
|
||||
רשתות שעובדות על וידאו לא מתייחסות לכל פריים כבלתי תלוי באחרים. נניח לצורך הפשטות שהקלט הוא רצף של תמונות בשחור לבן (בפועל, במערכת כמו רכב אוטונומי, כנראה שבכל פיקסל יהיה מקודד מידע עשיר בהרבה מסתם בהירות, כמו מידע על צבע ועל עומק, והמערכת לא תתמודד רק עם רצף של פריימים ממצלמה אחת אלא עם פיוז'ן של אותות המגיעים מסנסורים רבים, חלקם מצלמות וחלקם לא). ונניח גם שנרצה לנתח את הקלט באופן קזואלי (כלומר שהניתוח בכל נקודת זמן יעשה רק על סמך אינפורמציה הזמינה באותה נקודת-זמן או לפניה). זה בד"כ המצב במערכות זמן-אמת (כמו רכב אוטונומי), אך לא במערכות הפועלות אופליין (כמו למשל בניתוח סמנטי של סרטונים המועלים ליוטיוב). דרך מקובלת אחת לקחת בחשבון את הקונטקסט, היא באמצעות קונבולוציות. במקרה של וידאו מדובר יהיה בקונבולוציות על בלוקים של מרחב-זמן (בניגוד לקונבולציות הפעולות רק במרחב, כמו במקרה של תמונות). זה קצת דומה למה שהצעת (אם אני מבין נכון את כוונתך ב-"השהיית תמונה בין שכבה לשכבה"), אבל זו טכניקה שבפני עצמה היא מאד מוגבלת, מכיוון שהיא מסוגלת לקחת בחשבון רק אינפורמציה מאד לוקלית (דברים שקרו לאחרונה). דרך מקובלת אחרת לקחת בחשבון את הקונטקסט, היא באמצעות RNNs כפי שמתואר בתגובה שכתבתי לשכ"ג, המאפשרות גם לקחת בחשבון אירועים רחוקים יותר בזמן ולהבין באופן הוליסטי יותר הסיטואציה שלפניהן. וכמובן שאפשר (ורצוי, ומקובל) לשלב את שתי הגישות. לגבי זמני-תגובה: האימון של רשתות מורכבות הוא משימה מאד כבידה מבחינת המשאבים החישוביים והזמן הנדרש. אך השימוש בהן, לאחר האימון, הוא משימה כבדה בסדר-גודל רבים פחות (היא עדיין עשויה להיות יחסית כבדה, תלוי ברשת ובבעיה הסציפית). שיפור הביצועים בהרצת רשתות מאומנות זה מדע בפני-עצמו (למשל באמצעות pruning של חלקים מהרשת, או רדוקציה של הייצוג המספרי של הפרמטרים, או ביזור, או קירוב וכו' וכו'), ואני לא חושב שלגוגל למשל (שבונה את הרכב כולו, ויש לה שליטה מלאה על מערך החיישנים, החומרה והתוכנה) יש בעיה לעמוד בזמני התגובה הנדרשים. |
|
||||
|
||||
הערה צדדית: החלק שהכי מרשים, או מפתיע, אותי הוא שאפשר לקבל את משאבי החישוב הדרושים במחיר סביר. במחשבה נוספת, יותר מרשים מזה הוא שהמוח שלנו עושה משהו דומה עם מעבדים איטיים בהרבה. |
|
||||
|
||||
ובמחשבה שלישית: אבל מספר המעבדים שונה... |
|
||||
|
||||
אתה מדבר על משאבי החישוב בלמידה או ביישום? כי אלה סדרי גודל שונים מאד. |
|
||||
|
||||
לא בטוח שהמוח שלנו עושה משהו דומה. אלנ"ב (אני לא נוירו-ביולוג), אבל למיטב ידעתי את האנולוגיה בין "רשתות נוירונים" בלמידה-חישובית לבין "רשתות נוירונים" בנוירוביולוגיה צריך לקחת בערבון מאד מוגבל. אין ספק שישנה הפרייה הדדית בין שני התחומים, אבל בד"כ האנלוגיות נשברות די מהר. למשל, היסטורית אחת המוטיבציות המרכזיות מאחורי פונקציית האקטיבציה הנפוצה ביותר היום (ה-rectifier, כנראה מוכרת יותר בשם ReLU) היא מעבר-הפאזה האמפירי שנצפה בניורונים ביולוגים (כלומר: רק אם סך הפוטנציאלים הקדם-סינפטיים גדול מאיזשהו סף, נוצר פוטנציאל פעולה). זאת לעומת ההתנהגות של פונקציית האקטיבציה שזכתה למירב הפופלריות לפני כן בלמידה עמוקה (ה-hyperbolic tangent הסימטרית). אבל מצד שני, מעבר לסף, הפעולה של ה-rectifier פרופורציונאלית לקלט, בעוד שאצל נוירונים ביולוגיים (בד"כ) היא קבועה. ובכלל, הסיבה המרכזית להצלחה של ה-rectifiers (בניגוד לאקטיבציות אחרות שגם הן א-סימטריות, כמו סתם thresholds או פונקציית ה-softplus) בעליל לא קשורה למוטיבציה ביולוגית כזו או אחרת, אלא היא טכנית לגמרי וקשורה להתנהגות הנחמדה של הנגזרת שלה בהקשר של אלגוריתמי האופטימיזציה הנפוצים (ווריאציות של SGD) ויעילות המימוש שלה. ככל הנראה לסיבה הזו אין שום קשר לביולוגיה. דוגמאות אחרות (ומעניינות יותר) להפרייה הדדית הן למשל הרעיון של למידה הביאנית שפותח בהקשר של נוירוביולוגיה, והתגלגל לאלגוריתמי הלמידה הראשונים שפותחו לפרספטרונים ואח"כ ללמידה במודלים מבוססי-אנרגיה, או למשל רשתות הופפילד שפותחו כמודל לזיכרון-האנושי, ומהן נגזרו תאוריות מעניינות ואלגוריתמים שימושיים בלמידה-חישובית, או למשל ה-wake-sleep algorithm שנמצא על קו-התפר בין נוירולוגיה-תאורטית, למידה-בייסאנית ולמידה-עמוקה ומצד אחד מהווה תאוריה נוירוביולוגית מעניינת לכך שבעלי-חיים באופן כללי נוטים לישון מידי פעם, ומצד שני משמש כאלגוריתם לאימון משפחה מסויימת של מערכות-לומדות, או למשל הדמיון בין רשתות-קונבולוציה בראייה-ממוחשבת לבין המבנה של ה-visual cortex ההתאוריה הנוירוביולוגית של receptive fields (צפייה מומלצת: ניסוי החתולים של Hubel ו-Wiesel). אבל למרות כל זאת, ההבדלים בין התחומים עולים בהרבה על הדמיון. כמובן, החומרה מאד שונה. וההתנהגות של מודלים דינמיים של נוירונים ביולוגיים (כמו Hodgkin–Huxley model) שונה מאד מזו של "נוירונים" בלמידה-חישובית, ואפילו המודלים הדינמיים האלה בעצם שונים מאד מהמכניקה הביולוגית (תעלות ומשאבות יונים, מוליכים עצביים, וכל זה). ולמרות שהמוח הוא בברור מערכת מאד אדפטיבית, היא גם מערכת עם התמחויות מאד ספציפיות שחווטו במהלך האבולוציה. לא ממש ברור מה "הדרך הנכונה" למדל בכלל את האופן שבו המוח הוא אדפטיבי (זה כנראה יותר בכיוון המאד כללי של reinforcement learning מאשר supervised learning), ולא ממש ברור איך פועלת מערכת המשוב של האדפטציה הזו. גם אם גרסה כלשהי של backpropagation ו-SGD משחקת תפקיד בלמידה הביולוגית, היא כנראה שונה באופן ניכר מהגרסה המשמשת בלמידה חישובית. אני חושב שזו אחת הסיבות שאנשים התרחקו מהטרמינולוגיה של "רשתות-נוירונים" והמותג "למידה-עמוקה" התחזק (ומעניין מה יקרה לו אם יתברר בהמשך שהעומק לא משחק תפקיד נורא-חשוב...). |
|
||||
|
||||
עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה אולי נובע מהשימוש בתואר "עמוקה" בשם המותג. זאת פשוט מילה מצוינת, שמשדרת כובד ראש ו... עומק. ע"ע תיאוריית הקונספירציה deep state, וכן deep structure של חומסקי. אפרופו הסוגריים האחרונים אצלך: נדמה לי ששמעתי פעם שאחד החלוצים של רשתות הנוירונים כתב באחד המאמרים המכוננים של התחום שאי אפשר להשיג שיפור משמעותי ע"י הוספת הרבה שכבות, כל הקהילה פשוט קיבלה את דעתו (הבלתי מנומקת), ולכן לקח הרבה שנים עד שגילו - יחסית לאחרונה - שעומק דווקא מאד עוזר. מוכר לך הסיפור הזה, או שאני משבש/הוזה? |
|
||||
|
||||
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים). באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו. 1 נו, Low hanging fruits |
|
||||
|
||||
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים. לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר. |
|
||||
|
||||
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר. |
|
||||
|
||||
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה? |
|
||||
|
||||
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם. |
|
||||
|
||||
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון? אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה. ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך). בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field. זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה. ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...). יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי. |
|
||||
|
||||
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה |
|
||||
|
||||
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה. אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech). (וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs). |
|
||||
|
||||
hmm זה דוגמא ולא העקרון. שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא. |
|
||||
|
||||
איבדתי אותך. |
|
||||
|
||||
הנה השתלשלות הפתיל כפי שאני רואה אותה. יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח פונז: מתפלא עליך, משתמשים בזה כי זה עובד אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב. עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה ואני מזכיר שיובל כתב: חלק קטן |
|
||||
|
||||
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור. |
|
||||
|
||||
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי. |
|
||||
|
||||
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה. |
|
||||
|
||||
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור. |
|
||||
|
||||
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא. הנה נימוק ללא דוגמא. לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect. [אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.] מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה. |
|
||||
|
||||
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות. כבר אז התוצאות נראו נאות. |
|
||||
|
||||
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום. |
|
||||
|
||||
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)? |
|
||||
|
||||
טובים בהרבה. הרבה יותר זכירים ופחות גנרים. וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע. |
|
||||
|
||||
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד). באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure". אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization. |
|
||||
|
||||
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי: 1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו. 2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה). |
|
||||
|
||||
זו אולי מסביר את ההצלחה של המותג "למידה עמוקה" (נדמה לי שהשם עלה לראשונה כעשור או שניים לפני שהוא באמת תפס). התחום עצמו לא צריך מטא-הסבר להצלחתו. יש המון "משפטי-אוניברסליות" מהצורה "כל רשת עם רק 2 שכבות (+אותיות קטנות) יכולה לייצג כל פונקציה", שמהן אפשר בטעות להבין שלא צריך עומק. אבל השאלה של ייצוג (capacity) היא לרוב לא באמת מעניינת, ויכולת-ההכללה היא הנקודה החשובה - וכאן כנראה שלעומק יש תפקיד חשוב. חלק גדול מזה מובן תאורטית ומתמטית, אבל השאלה אם נגיד 10 שכבות הן די והותר, או האם כל-המרבה-הרי-זה-משובח עדיין פתוחה. הסיבה שרשתות עם יותר מ-2-3 שכבות הפכו לפופלריות בשנים האחרונות היא לא כי גילו שעומק עוזר, אלא פשוט כי סופסוף גילו איך אפשר (אלגוריתמית) לאמן כאלה רשתות. |
|
||||
|
||||
הייתי בהרצאה בת יומיים וחצי של מומחית לסטטיסטיקה וללמידה חישובית, שמחלקת את זמנה וגם את הרצאתה בין שני התחומים, ולפחות כמרצה היא תותחית-על. אחת ההבחנות שלה היתה שאלו שני תחומים דומים, וההבדל העיקרי הוא שסטטיסטיקאים קוראים לדברים בשמות משמעממים/שמרניים ואילו אנשי הל"ח קוראים לדברים בשמות מגניבים/יומרניים. פונז - זה שקראו לזה בהתחלה "רשתות נוירונים קונבולוציוניות מרובות שכבות" הוא אולי דוגמה נגדית. אבל אולי דוגמה מחזקת? עובדה ש"הגניבו" את השם... |
|
||||
|
||||
זו קצת שאלת ביצה ותרנגולת, כי אולי השם "הוגנב" רק אחרי שהטרנד התפשט ממעבדות המומחים כמו אש בשדה קוצים? ואז, מרגע שהיה צורך במאמרים פופולריים יותר במדיה הציבורית שמתארים את התופעה החדשה, הומצאו מושגים קליטים יותר שיתאימו לתיאור הזה? רוצה לומר, "החתול של שרדינגר" הומצא יותר מעשור אחרי שהפיזיקאים כבר טחנו משוואות דיפרנציאליות של גלים ומטריצות הרמיטיות של אופרטורים שהצליחו לתאר את העולם בצורה חדשה ונפלאה מבלי להידרש למטאפורות מגניבות על חיות מחמד נפוצות. |
|
||||
|
||||
נכון מאד. טרבור הייסטי מאונ' סטנפורד, אחד האלילים של הלמידה הסטטיסטית1, נתן הרצאת keynote בכנס של האיגוד הישראלי לסטטיסטיקה לפני שנתיים. הוא אמר שם שהרבה מאד מהרעיונות החדשים לכאורה, שהופצו ע"י מדעני למידה עם שורשים במדעי המחשב, הם בעצם רעיונות ידועים היטב בסטטיסטיקה כבר משנות השמונים והתשעים, והוא מתפלא שרק בשנים האחרונות התפוצץ כל ההייפ הזה. מותר לשאול מה שמה של המומחית? ____________________ 1. בין השאר, אחד ממחברי the Elements of Statistical Learning. |
|
||||
|
||||
קאסי קוזירקוב. |
|
||||
|
||||
יש לה בלוג חדש, עם פוסט יחיד בינתיים שהוא הסבר קצרצר להדיוטות על מה זה למידת מכונה. |
|
||||
|
||||
כשנתקלתי באחת הכותרות שלה בהסבר ללמידת מכונה: Explain with examples, not instructions, נזכרתי במשהו שרציתי לכתוב כאן מזמן בקשר לויכוחים ארוכים בנושא אחר לגמרי - "מהי אמנות". מהלך אופייני בויכוח כזה הוא שלבסוף מתכנסים לאמירה שמאחר ואתה לא יכול *להגדיר* מהי אמנות, כל ויכוח לגבי האם תערוכה או מוצג כזה או אחר הם 'אמנות' נידון לכשלון בגלל שאנחנו לא מצליחים לנסח הגדרה מדויקת מספיק למהי אמנות. באה למידת המכונה ומבהירה לנו שהדרישה להגדרה (=תיאור מילולי קצר=תיאור אלגוריתם לסיווג אמנות/לא אמנות=instructions בציטוט לעיל) היא ארכאית בערך כמו הדרישה לקרוא 'דואר' רק למשהו שיש עליו בול ודבק או הדרישה להגדיר 'טלפון' כמשהו שיש לו חוט שקשור לקיר. אומרת למידת המכונה - סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן, וממשיכה ומלמדת אותנו ה'למידה העמוקה' שסיווג כזה הוא הרבה יותר מדויק ומוצלח מהישן. לך לרשת הנוירונים העמוקה המובילה היום בסיווג תמונות ל'כלב' ו'חתול' ותשאל אותה על תמונה מסוימת 'למה החלטת שזה חתול' - שזה מקביל אולי לשאלה 'לאיזה "הגדרות" של חתול היא מתאימה' - והיא תצחק לך בפנים, תכנת פורטרן מהאייטיז שכמוך, ואם תתעקש תענה לך בטבלה ארוכה ומפורטת של עשרות מיליוני המשקלות ברשת שהם אלה שמחליטים שזה חתול. אז לסיכום, אם לא הובנתי עד כה, מה שלמדנו מלמידת מכונה זה שקיום 'הגדרה' למושג כלשהוא איננו תנאי הכרחי לסיווג לגיטימי ובר סמכא של אותו מושג, ושהמשפט הנושן לגבי פורנוגרפיה, ואולי גם אמנות - אני לא יודע להגדיר לך את זה, אבל כשאראה את זה אדע - לא מראה על מגבלת הידיעה שלנו, אלא להיפך, על התוקף הלגיטימי והמוצק של ידיעה שמבוססת על דוגמאות אינספור. יש לך ספק אם יצירה מסוימת היא אמנות? תראה לי אותה ובוא נתווכח, ואל תתחמק בטיעונים פילוסופיים של חוסר הגדרות. אלא אם בא לך לכתוב פורטרן על מיין פריים, סטייה לגיטימית אבל ארכאית למדי. |
|
||||
|
||||
יפה. אתה יכול להשתמש בזה כדי לשים בצד את חיפוש ההגדרה לאמנות כשהוא לצורך הבנת אידיאת האמנות, או כדי להסביר למה החתונה בכנא היא אמנות. אבל במקומות כמו "האייל" מחפשים הגדרה לאמנות יותר מכל כדי לנסות לשכנע שברודווי בוגי ווגי הוא כן או לא אמנות, כשהסיבה לויכוח היא שזו יצירה על אזור הגבול של התיחום הקונצנזואלי. אני חושב מזמן שהשאלות מהסוג הזה לרוב לא מעניינות, ושניסיון לענות עליהן לפי הגדרה הוא סרק, אבל לא ברור לי שרשתות עצביות הן טיעון חזק בעניין. |
|
||||
|
||||
אם אתה כבר מניח ש''ניסיון לענות עליהן לפי הגדרה הוא סרק'', אז אכן הטיעון שלי לא מוסיף לך הרבה. למי שעדיין חושב שסיווג על פי הגדרה הוא קריטריון חשוב ומעלה את הטיעון הזה בויכוח, אותו הטיעון שלי אמור ללמד שכדאי שיחשוב שנית. |
|
||||
|
||||
>> סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן אבל שורש הבעיה הוא שיש דוגמאות שהסיווג שלהן שנוי במחלוקת, לא? יש מי שחושב שמשתנה היא אמנות, ויש מי שלא, אז איך תסווג (בשלב האימון) משתנה? |
|
||||
|
||||
שים לב שהטיעון העיקרי שלי הוא לא שיש לי פתרון לשאלת "האם משתנה היא אמנות", אלא שמי שטוען שאי אפשר לדון בשאלה הזאת לפני שהגדרנו "אמנות" טועה. ספציפית לגבי השאלה שלך, אולי בכלל מה שראוי לשאול הוא - בהינתן לימוד על היסטוריה ענפה (בטרם משתנה), מה תאמר הרשת על משתנה. ויטענו אנשי ה-AI הקשה: אבל זה בדיוק הניסוי שעשינו, נתנו לאלפי רשתות כאלה (משוכנות היטב במוחות אנושיים) שלמדו על דוגמאות עד כה, את הדוגמית החדשה - משתנה - ושאלנו אותן האם זו אמנות. חלק טענו שכן, וחלק שלא. אולי טענת משנה חלשה יותר שעולה מהטיעון שלי, היא שטיעונים כמו "מאחר שהדוגמית החדש דומה למוצג שראיתי לפני שנתיים כאן ואכן, ולזה שראיתי לפני 4 שנים כאן וכאן וגו', ולכן גם זו אמנות" הם תקפים ומשמעותיים יותר מאשר "לפי מילון שטיינוביץ'-ולדיסימוביץ' לאומנות פלסטית לדורותיה, המשתנה עומדת בקריטריונים 2.א ו-4.ב.(3), ולכן מקומה אומנותה". |
|
||||
|
||||
אז אני מצטרף לטיעון של "אנשי ה-AI הקשה". |
|
||||
|
||||
ואני חוזר לטענה העיקרית שלי, מסכים שטענת המשנה לא מכריעה את השאלה. |
|
||||
|
||||
מסכים איתך שרשתות נוירונים יצרו דרך שמאפשרת (עקרונית) להכריע האם אובייקט מסוים הוא אמנות או לא, בלי לנסח הגדרה מדויקת ל''מה זה אמנות''. אני רק אומר שהדרך החדשה הזו לא שווה הרבה בעיניי במקרי הקצה, נוסח המשתנה של דושאן, שעליהם בני האדם ממשיכים להתווכח. |
|
||||
|
||||
אני מסכים שהדרך החדשה לא פותרת את בעיית הסיווג, היא רק ''פותרת'' או מורידה מהשולחן טיעון מקובל בקשר לבעייה, שמסיט את הדיון (הראוי לטעמי) במקרי הקצה להתפלספויות לא רלבנטיות. |
|
||||
|
||||
אין לי דרך להראות את זה אבל ההרגשה שלי שמי שעדיין מתווכח על המשתנה של דושאן זה בעיקר הקישונים של העולם, השוליים הנוקשים. והקישונים הם בעצם מהמילייה האומנותי. |
|
||||
|
||||
בצעתי חיפוש באתר ונראה לי שאת האנקדוטה הזאת עדיין לא ספרתי1, ולכן אספר אותה עכשיו. זה היה בשנות ה 60. קבוצה של סטודנטים נחה על הדשא באוניברסיטה העברית בירושלים. סטודנטית התקרבה לקבוצה ופנתה אליהם: אתם לומדים במקרה סטטיסטיקה? אחד הסטודנטים (לימים פרופסור עוזי סמילנסקי) השיב: אנחנו בכוונה לא לומדים סטטיסטיקה. (אני מקווה וגם בטוח שאיש לא נעלב.) 1 כיוון שמלאי האנקדוטות שאני זוכר בוודאי אינו אין סופי, כל פעם שאני עומד לספר אחת מהן אני בודק אם לא ספרתי אותה כבר, כי מאד סביר שכן. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |