|
||||
|
||||
עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה אולי נובע מהשימוש בתואר "עמוקה" בשם המותג. זאת פשוט מילה מצוינת, שמשדרת כובד ראש ו... עומק. ע"ע תיאוריית הקונספירציה deep state, וכן deep structure של חומסקי. אפרופו הסוגריים האחרונים אצלך: נדמה לי ששמעתי פעם שאחד החלוצים של רשתות הנוירונים כתב באחד המאמרים המכוננים של התחום שאי אפשר להשיג שיפור משמעותי ע"י הוספת הרבה שכבות, כל הקהילה פשוט קיבלה את דעתו (הבלתי מנומקת), ולכן לקח הרבה שנים עד שגילו - יחסית לאחרונה - שעומק דווקא מאד עוזר. מוכר לך הסיפור הזה, או שאני משבש/הוזה? |
|
||||
|
||||
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים). באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו. 1 נו, Low hanging fruits |
|
||||
|
||||
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים. לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר. |
|
||||
|
||||
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר. |
|
||||
|
||||
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה? |
|
||||
|
||||
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם. |
|
||||
|
||||
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון? אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה. ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך). בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field. זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה. ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...). יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי. |
|
||||
|
||||
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה |
|
||||
|
||||
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה. אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech). (וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs). |
|
||||
|
||||
hmm זה דוגמא ולא העקרון. שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא. |
|
||||
|
||||
איבדתי אותך. |
|
||||
|
||||
הנה השתלשלות הפתיל כפי שאני רואה אותה. יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח פונז: מתפלא עליך, משתמשים בזה כי זה עובד אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב. עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה ואני מזכיר שיובל כתב: חלק קטן |
|
||||
|
||||
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור. |
|
||||
|
||||
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי. |
|
||||
|
||||
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה. |
|
||||
|
||||
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור. |
|
||||
|
||||
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא. הנה נימוק ללא דוגמא. לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect. [אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.] מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה. |
|
||||
|
||||
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות. כבר אז התוצאות נראו נאות. |
|
||||
|
||||
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום. |
|
||||
|
||||
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)? |
|
||||
|
||||
טובים בהרבה. הרבה יותר זכירים ופחות גנרים. וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע. |
|
||||
|
||||
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד). באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure". אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization. |
|
||||
|
||||
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי: 1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו. 2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה). |
|
||||
|
||||
זו אולי מסביר את ההצלחה של המותג "למידה עמוקה" (נדמה לי שהשם עלה לראשונה כעשור או שניים לפני שהוא באמת תפס). התחום עצמו לא צריך מטא-הסבר להצלחתו. יש המון "משפטי-אוניברסליות" מהצורה "כל רשת עם רק 2 שכבות (+אותיות קטנות) יכולה לייצג כל פונקציה", שמהן אפשר בטעות להבין שלא צריך עומק. אבל השאלה של ייצוג (capacity) היא לרוב לא באמת מעניינת, ויכולת-ההכללה היא הנקודה החשובה - וכאן כנראה שלעומק יש תפקיד חשוב. חלק גדול מזה מובן תאורטית ומתמטית, אבל השאלה אם נגיד 10 שכבות הן די והותר, או האם כל-המרבה-הרי-זה-משובח עדיין פתוחה. הסיבה שרשתות עם יותר מ-2-3 שכבות הפכו לפופלריות בשנים האחרונות היא לא כי גילו שעומק עוזר, אלא פשוט כי סופסוף גילו איך אפשר (אלגוריתמית) לאמן כאלה רשתות. |
|
||||
|
||||
הייתי בהרצאה בת יומיים וחצי של מומחית לסטטיסטיקה וללמידה חישובית, שמחלקת את זמנה וגם את הרצאתה בין שני התחומים, ולפחות כמרצה היא תותחית-על. אחת ההבחנות שלה היתה שאלו שני תחומים דומים, וההבדל העיקרי הוא שסטטיסטיקאים קוראים לדברים בשמות משמעממים/שמרניים ואילו אנשי הל"ח קוראים לדברים בשמות מגניבים/יומרניים. פונז - זה שקראו לזה בהתחלה "רשתות נוירונים קונבולוציוניות מרובות שכבות" הוא אולי דוגמה נגדית. אבל אולי דוגמה מחזקת? עובדה ש"הגניבו" את השם... |
|
||||
|
||||
זו קצת שאלת ביצה ותרנגולת, כי אולי השם "הוגנב" רק אחרי שהטרנד התפשט ממעבדות המומחים כמו אש בשדה קוצים? ואז, מרגע שהיה צורך במאמרים פופולריים יותר במדיה הציבורית שמתארים את התופעה החדשה, הומצאו מושגים קליטים יותר שיתאימו לתיאור הזה? רוצה לומר, "החתול של שרדינגר" הומצא יותר מעשור אחרי שהפיזיקאים כבר טחנו משוואות דיפרנציאליות של גלים ומטריצות הרמיטיות של אופרטורים שהצליחו לתאר את העולם בצורה חדשה ונפלאה מבלי להידרש למטאפורות מגניבות על חיות מחמד נפוצות. |
|
||||
|
||||
נכון מאד. טרבור הייסטי מאונ' סטנפורד, אחד האלילים של הלמידה הסטטיסטית1, נתן הרצאת keynote בכנס של האיגוד הישראלי לסטטיסטיקה לפני שנתיים. הוא אמר שם שהרבה מאד מהרעיונות החדשים לכאורה, שהופצו ע"י מדעני למידה עם שורשים במדעי המחשב, הם בעצם רעיונות ידועים היטב בסטטיסטיקה כבר משנות השמונים והתשעים, והוא מתפלא שרק בשנים האחרונות התפוצץ כל ההייפ הזה. מותר לשאול מה שמה של המומחית? ____________________ 1. בין השאר, אחד ממחברי the Elements of Statistical Learning. |
|
||||
|
||||
קאסי קוזירקוב. |
|
||||
|
||||
יש לה בלוג חדש, עם פוסט יחיד בינתיים שהוא הסבר קצרצר להדיוטות על מה זה למידת מכונה. |
|
||||
|
||||
כשנתקלתי באחת הכותרות שלה בהסבר ללמידת מכונה: Explain with examples, not instructions, נזכרתי במשהו שרציתי לכתוב כאן מזמן בקשר לויכוחים ארוכים בנושא אחר לגמרי - "מהי אמנות". מהלך אופייני בויכוח כזה הוא שלבסוף מתכנסים לאמירה שמאחר ואתה לא יכול *להגדיר* מהי אמנות, כל ויכוח לגבי האם תערוכה או מוצג כזה או אחר הם 'אמנות' נידון לכשלון בגלל שאנחנו לא מצליחים לנסח הגדרה מדויקת מספיק למהי אמנות. באה למידת המכונה ומבהירה לנו שהדרישה להגדרה (=תיאור מילולי קצר=תיאור אלגוריתם לסיווג אמנות/לא אמנות=instructions בציטוט לעיל) היא ארכאית בערך כמו הדרישה לקרוא 'דואר' רק למשהו שיש עליו בול ודבק או הדרישה להגדיר 'טלפון' כמשהו שיש לו חוט שקשור לקיר. אומרת למידת המכונה - סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן, וממשיכה ומלמדת אותנו ה'למידה העמוקה' שסיווג כזה הוא הרבה יותר מדויק ומוצלח מהישן. לך לרשת הנוירונים העמוקה המובילה היום בסיווג תמונות ל'כלב' ו'חתול' ותשאל אותה על תמונה מסוימת 'למה החלטת שזה חתול' - שזה מקביל אולי לשאלה 'לאיזה "הגדרות" של חתול היא מתאימה' - והיא תצחק לך בפנים, תכנת פורטרן מהאייטיז שכמוך, ואם תתעקש תענה לך בטבלה ארוכה ומפורטת של עשרות מיליוני המשקלות ברשת שהם אלה שמחליטים שזה חתול. אז לסיכום, אם לא הובנתי עד כה, מה שלמדנו מלמידת מכונה זה שקיום 'הגדרה' למושג כלשהוא איננו תנאי הכרחי לסיווג לגיטימי ובר סמכא של אותו מושג, ושהמשפט הנושן לגבי פורנוגרפיה, ואולי גם אמנות - אני לא יודע להגדיר לך את זה, אבל כשאראה את זה אדע - לא מראה על מגבלת הידיעה שלנו, אלא להיפך, על התוקף הלגיטימי והמוצק של ידיעה שמבוססת על דוגמאות אינספור. יש לך ספק אם יצירה מסוימת היא אמנות? תראה לי אותה ובוא נתווכח, ואל תתחמק בטיעונים פילוסופיים של חוסר הגדרות. אלא אם בא לך לכתוב פורטרן על מיין פריים, סטייה לגיטימית אבל ארכאית למדי. |
|
||||
|
||||
יפה. אתה יכול להשתמש בזה כדי לשים בצד את חיפוש ההגדרה לאמנות כשהוא לצורך הבנת אידיאת האמנות, או כדי להסביר למה החתונה בכנא היא אמנות. אבל במקומות כמו "האייל" מחפשים הגדרה לאמנות יותר מכל כדי לנסות לשכנע שברודווי בוגי ווגי הוא כן או לא אמנות, כשהסיבה לויכוח היא שזו יצירה על אזור הגבול של התיחום הקונצנזואלי. אני חושב מזמן שהשאלות מהסוג הזה לרוב לא מעניינות, ושניסיון לענות עליהן לפי הגדרה הוא סרק, אבל לא ברור לי שרשתות עצביות הן טיעון חזק בעניין. |
|
||||
|
||||
אם אתה כבר מניח ש''ניסיון לענות עליהן לפי הגדרה הוא סרק'', אז אכן הטיעון שלי לא מוסיף לך הרבה. למי שעדיין חושב שסיווג על פי הגדרה הוא קריטריון חשוב ומעלה את הטיעון הזה בויכוח, אותו הטיעון שלי אמור ללמד שכדאי שיחשוב שנית. |
|
||||
|
||||
>> סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן אבל שורש הבעיה הוא שיש דוגמאות שהסיווג שלהן שנוי במחלוקת, לא? יש מי שחושב שמשתנה היא אמנות, ויש מי שלא, אז איך תסווג (בשלב האימון) משתנה? |
|
||||
|
||||
שים לב שהטיעון העיקרי שלי הוא לא שיש לי פתרון לשאלת "האם משתנה היא אמנות", אלא שמי שטוען שאי אפשר לדון בשאלה הזאת לפני שהגדרנו "אמנות" טועה. ספציפית לגבי השאלה שלך, אולי בכלל מה שראוי לשאול הוא - בהינתן לימוד על היסטוריה ענפה (בטרם משתנה), מה תאמר הרשת על משתנה. ויטענו אנשי ה-AI הקשה: אבל זה בדיוק הניסוי שעשינו, נתנו לאלפי רשתות כאלה (משוכנות היטב במוחות אנושיים) שלמדו על דוגמאות עד כה, את הדוגמית החדשה - משתנה - ושאלנו אותן האם זו אמנות. חלק טענו שכן, וחלק שלא. אולי טענת משנה חלשה יותר שעולה מהטיעון שלי, היא שטיעונים כמו "מאחר שהדוגמית החדש דומה למוצג שראיתי לפני שנתיים כאן ואכן, ולזה שראיתי לפני 4 שנים כאן וכאן וגו', ולכן גם זו אמנות" הם תקפים ומשמעותיים יותר מאשר "לפי מילון שטיינוביץ'-ולדיסימוביץ' לאומנות פלסטית לדורותיה, המשתנה עומדת בקריטריונים 2.א ו-4.ב.(3), ולכן מקומה אומנותה". |
|
||||
|
||||
אז אני מצטרף לטיעון של "אנשי ה-AI הקשה". |
|
||||
|
||||
ואני חוזר לטענה העיקרית שלי, מסכים שטענת המשנה לא מכריעה את השאלה. |
|
||||
|
||||
מסכים איתך שרשתות נוירונים יצרו דרך שמאפשרת (עקרונית) להכריע האם אובייקט מסוים הוא אמנות או לא, בלי לנסח הגדרה מדויקת ל''מה זה אמנות''. אני רק אומר שהדרך החדשה הזו לא שווה הרבה בעיניי במקרי הקצה, נוסח המשתנה של דושאן, שעליהם בני האדם ממשיכים להתווכח. |
|
||||
|
||||
אני מסכים שהדרך החדשה לא פותרת את בעיית הסיווג, היא רק ''פותרת'' או מורידה מהשולחן טיעון מקובל בקשר לבעייה, שמסיט את הדיון (הראוי לטעמי) במקרי הקצה להתפלספויות לא רלבנטיות. |
|
||||
|
||||
אין לי דרך להראות את זה אבל ההרגשה שלי שמי שעדיין מתווכח על המשתנה של דושאן זה בעיקר הקישונים של העולם, השוליים הנוקשים. והקישונים הם בעצם מהמילייה האומנותי. |
|
||||
|
||||
בצעתי חיפוש באתר ונראה לי שאת האנקדוטה הזאת עדיין לא ספרתי1, ולכן אספר אותה עכשיו. זה היה בשנות ה 60. קבוצה של סטודנטים נחה על הדשא באוניברסיטה העברית בירושלים. סטודנטית התקרבה לקבוצה ופנתה אליהם: אתם לומדים במקרה סטטיסטיקה? אחד הסטודנטים (לימים פרופסור עוזי סמילנסקי) השיב: אנחנו בכוונה לא לומדים סטטיסטיקה. (אני מקווה וגם בטוח שאיש לא נעלב.) 1 כיוון שמלאי האנקדוטות שאני זוכר בוודאי אינו אין סופי, כל פעם שאני עומד לספר אחת מהן אני בודק אם לא ספרתי אותה כבר, כי מאד סביר שכן. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |