בתשובה ליובל נוב, 17/01/24 22:18
ג׳פטו 4 766172
זה מה שהטמבל ענה לי, עד שהפסקתי אותו בגסות:

שוטה 1: האם ייתכן שבקבוצת מספרים שלא כולם זהים, לא יהיה אף מספר קטן יותר מהחציון?

שוטה 2: "כן, זה ייתכן. אם יש קבוצת מספרים שלא כולם זהים, ואם הם מסודרים בסדר עולה או יורד, אז ייתכן שלא יהיה אף מספר קטן יותר מהחציון. לדוגמה, נניח שיש לנו את הקבוצה הבאה: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}. החציון של הקבוצה הזו הוא 10.5. אין שום מספר בקבוצה הזו שקטן יותר מהחציון. זה יכול לקרות כאשר יש מספרים זוגיים רבים בקבוצה, והחציון הוא מספר אי-זוגי. כמו כן, זה יכול לקרות כאשר יש מספרים אי-זוגיים רבים בקבוצה, והחציון הוא מספר זוגי. זה יכול לקרות גם כאשר יש מספרים רבים בקבוצה והחציון הוא מספר שאינו נמצא בקבוצה. כלומר, זה יכול לקרות כאשר החציון הוא ממש ממש גבוה או ממש ממש נמוך ביחס ל...".

על אותה שאלה באנגלית הוא שוב ענה בעברית, וההבדל היה שהפעם הוא הוסיף לתשובה גם "זה נקרא חציון חסר". מכונית? לא אתן לו לנהוג גם עגלה בסופר.
ג׳פטו 4 766389
מכל הטעויות שלו בפתיל, זאת נשמעת לי הכי אנושית ובצורה מטרידה. קטונתי מלשפוט את הקופסה הזאת אבל גם אני רוצה להשתטות. לדעתי ג'פטו מפעיל פה למראית עין תהליך חשיבה אנושי. דיבור תוך כדי חשיבה, ניסוחים סביב רעיון אינטואיטיבי שהוא לא מצליח להביע במדוייק, והזחה של הרעיון הזה ביחס לשאלה המקורית תוך כדי מחשבה.

נכון, זה מאוד מתאים למודל שמתאים מילה מילה למשפט לאבד קשר לשאלה תוך כדי התשובה. זה גם כל כך מתאים להרבה סטודנטים עם הפרעות קשב שהכרתי, כולל התועלת בהערות כמו "חשוב שוב על השאלה" או "יש לך טעות בתשובה, אתה יכול לנסות להסביר לי איפה היא?".
ג׳פטו 4 766393
הרעיון של הפרעת קשב מעניין, במיוחד בגלל שהמאמר המכונן של פיתוח הטרנספורמרים, אלה שעומדים בבסיס הארכיטקטורה של ה NLP's נקרא Attention Is All You Need

(ולהסרת כל ספק קל שבקלים: לא קראתי אותו). ביקשתי מג'פטו סיכום בעברית והרי התוצאה:

אני אנסה לתקזר‏1 את המאמר "Attention is all you need" בעברית. הנה תקציר קצר של המאמר:

- **הרעיון המרכזי**: המחברים מציעים ארכיטקטורת רשת חדשה ופשוטה, ה-Transformer, המבוססת רק על מנגנוני תשומת לב, בלי שימוש ברשתות נוירונים חוזרות או קונבולוציוניות.
- **המשימות הנבדקות**: המחברים מראים שה-Transformer משפר את הביצועים במשימות של תרגום מכונה וניתוח תחבירי של משפטים באנגלית, בהשוואה למודלים קיימים ולקווי בסיס.
- **היתרונות העיקריים**: ה-Transformer מאפשר לרשת להתמקד בחלקים שונים של הנתונים הקלט, ולקבוע אילו אלמנטים הם הרלוונטיים ביותר למשימה הנוכחית. יתרון נוסף הוא שה-Transformer יותר קל להקביל ולאימון מאשר רשתות חוזרות או קונבולוציוניות.
- **המקורות העיקריים**: המאמר מבוסס על מחקרים קודמים בתחום התשומת לב, הרשתות הנוירוניות החוזרות והקונבולוציוניות, והארכיטקטורת ה-encoder-decoder. המאמר מכיל רשימה רחבה של מקורות לקריאה נוספת.

Source: Conversation with Bing, 25/01/2024
(1) [1706.03762] Attention Is All You Need - arXiv.org. https://arxiv.org/abs/1706.03762.
(2) Attention Is All You Need - arXiv.org. https://arxiv.org/pdf/1706.03762v5.pdf.
(3) Understanding Google’s “Attention Is All You Need” Paper and Its .... https://alok-shankar.medium.com/understanding-googles...
(4) Transformer (machine learning model) - Wikipedia. Transformer_%28machine_learning_model%29. [Wikipedia]
(5) undefined. https://doi.org/10.48550/arXiv.1706.03762.
____________
1- איזו שגיאה משונה!
ג׳פטו 4 766395
1 To Zummarize?
ג׳פטו 4 766431
לא הייתי מייחס לשמות של מודלים או רכיבים בארכיטקטורות (Attention, Long Short Term Memory וכדומה) יותר משמעות מאשר מיתוג, ובאמת מדובר במיתוג טוב מדי פעם שבאמת עוזר ללמוד ולזכור איך הם עובדים בערך. נתקענו עם אנלוגיה היסטורית בין רשתות נוירונים לנוירונים אז המיתוג בהתאם.

אני די בטוח, בכל זאת, שיש טעם לדבר על הקשר בין מעבר ממודלים חוזרניים (recurrent?) בלי חלונות לקלט לטרנספורמרים עם חלון קבוע, לבין "הפרעות הקשב" שאפשר לזהות בפלטים של מודלים. אני אפילו מנחש שיש מי שבדק דברים כאלו (ניסיתי את הקישורים במקורות שג'פטו שלח לך ולצערי אף אחד מהם לא ממש נוגע בזה).
ג׳פטו 4 766440
הערה קטנה: זה אכן מיתוג, אבל כמו במקרה של טכנולוגיית TWAIN, השם מאוד אינדיקטיבי. להבנתי, גם Attention וגם LSTM עושים משהו שמקביל במידה מסויימת לקשב האנושי: אם יצירתם משובשת, מקבלים (בסקאלה מסויימת) התייחסות לטפל במקום לעיקר, שזה מה שלפעמים היה קורה לי ללא ריטלין.

זה מזכיר לי דפוס כללי יותר בהתפתחות רשתות הנוירונים העמוקות, אליו שמתי לב‏1. בשלב מסויים שררה גישה פשטנית, לפיה נחבר כמה שיותר נוירונים אחד לשני, וגודש ה-data של האימון כבר ידאג לחזק את הקשרים החשובים ולאפס את האחרים. די מהר התברר שלא רק שזה הופך את האימון יקר וארוך, אלא גם שהתוצאות לא משהו: בהינתן מספיק data, הרשת חיזקה והחלישה לאו דווקא את הקשרים שהיינו רוצים. עודף הקישוריות הביא ל"זיהויים" של קשרים טפלים ודפוסים מדומיינים (מה שאולי מזכיר סכיזופרניה).

פריצות הדרך בתחום היו במידה רבה ע"י תיכנון רשתות בהן "עזרנו" לרשת ע"י ארכיטקטורה שמראש מנעה את רוב הקשרים. כלומר, הבנו היכן זקוקה הרשת לחופש והיכן הוא לרועץ.
רשתות CNN שתוכננו לראיה, נתנו מלכתחילה עדיפות לקשר שבין פיקסלים סמוכים, כמו בחיים, ולאחר מכן, בין אוספי סמוכים של פיקסלים וכן הלאה, עדיין כמו בחיים. ברשתות שאמורות להבין טקסט, תועדפו קשרים בין מילים סמוכון, ובין חלקים קצת פחות קרובים באופן אחר, עם עדיפות נמוכה מאוד לחלקים רחוקים. זה גם נכון ל-self attention (עם תיאור קצת יותר מורכב).

זה אולי מזכיר את השערת המבנים המולדים במוח.

1 גילוי נאות א': עבדתי בתחום, כולל כתיבת טרנספורמרים. גילוי נאות ב': לא בדקתי את התהליך המשוער באופן יסודי.
ג׳פטו 4 766445
"זה אולי מזכיר את השערת המבנים המולדים במוח." - בדיוק מה שחשבתי כשקראתי את תחילת ההודעה שלך (וזה המקום להמליץ שוב על הספר הזה).
ג׳פטו 4 766447
נעלבתי עמוקות מכך שלא קישרת לדיון 2244.
ג׳פטו 4 766449
תתנחם בכך שהעלבון שלך יעבור מהר, בעוד הסניליות שלי רק הולכת מחיל אל חיל.

או, כדברי ווינסטון: מחר אתה תהיה פיכח, אבל אני אשאר מכוער.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים