|
הערה קטנה: זה אכן מיתוג, אבל כמו במקרה של טכנולוגיית TWAIN, השם מאוד אינדיקטיבי. להבנתי, גם Attention וגם LSTM עושים משהו שמקביל במידה מסויימת לקשב האנושי: אם יצירתם משובשת, מקבלים (בסקאלה מסויימת) התייחסות לטפל במקום לעיקר, שזה מה שלפעמים היה קורה לי ללא ריטלין.
זה מזכיר לי דפוס כללי יותר בהתפתחות רשתות הנוירונים העמוקות, אליו שמתי לב1. בשלב מסויים שררה גישה פשטנית, לפיה נחבר כמה שיותר נוירונים אחד לשני, וגודש ה-data של האימון כבר ידאג לחזק את הקשרים החשובים ולאפס את האחרים. די מהר התברר שלא רק שזה הופך את האימון יקר וארוך, אלא גם שהתוצאות לא משהו: בהינתן מספיק data, הרשת חיזקה והחלישה לאו דווקא את הקשרים שהיינו רוצים. עודף הקישוריות הביא ל"זיהויים" של קשרים טפלים ודפוסים מדומיינים (מה שאולי מזכיר סכיזופרניה).
פריצות הדרך בתחום היו במידה רבה ע"י תיכנון רשתות בהן "עזרנו" לרשת ע"י ארכיטקטורה שמראש מנעה את רוב הקשרים. כלומר, הבנו היכן זקוקה הרשת לחופש והיכן הוא לרועץ. רשתות CNN שתוכננו לראיה, נתנו מלכתחילה עדיפות לקשר שבין פיקסלים סמוכים, כמו בחיים, ולאחר מכן, בין אוספי סמוכים של פיקסלים וכן הלאה, עדיין כמו בחיים. ברשתות שאמורות להבין טקסט, תועדפו קשרים בין מילים סמוכון, ובין חלקים קצת פחות קרובים באופן אחר, עם עדיפות נמוכה מאוד לחלקים רחוקים. זה גם נכון ל-self attention (עם תיאור קצת יותר מורכב).
זה אולי מזכיר את השערת המבנים המולדים במוח.
1 גילוי נאות א': עבדתי בתחום, כולל כתיבת טרנספורמרים. גילוי נאות ב': לא בדקתי את התהליך המשוער באופן יסודי.
|
|