הצד המשפטי של הצלחת הבינה המלאכותית

בתשובה לשוטה הכפר הגלובלי, 18/01/24 10:47

ג׳פטו 4

766389

רק לדקה • בתשובה לשוטה הכפר הגלובלי

יום ה', 25/1/2024, 3:18

מכל הטעויות שלו בפתיל, זאת נשמעת לי הכי אנושית ובצורה מטרידה. קטונתי מלשפוט את הקופסה הזאת אבל גם אני רוצה להשתטות. לדעתי ג'פטו מפעיל פה למראית עין תהליך חשיבה אנושי. דיבור תוך כדי חשיבה, ניסוחים סביב רעיון אינטואיטיבי שהוא לא מצליח להביע במדוייק, והזחה של הרעיון הזה ביחס לשאלה המקורית תוך כדי מחשבה.

נכון, זה מאוד מתאים למודל שמתאים מילה מילה למשפט לאבד קשר לשאלה תוך כדי התשובה. זה גם כל כך מתאים להרבה סטודנטים עם הפרעות קשב שהכרתי, כולל התועלת בהערות כמו "חשוב שוב על השאלה" או "יש לך טעות בתשובה, אתה יכול לנסות להסביר לי איפה היא?".

ג׳פטו 4

766393

שוטה הכפר הגלובלי • בתשובה לרק לדקה

יום ה', 25/1/2024, 10:37

הרעיון של הפרעת קשב מעניין, במיוחד בגלל שהמאמר המכונן של פיתוח הטרנספורמרים, אלה שעומדים בבסיס הארכיטקטורה של ה NLP's נקרא Attention Is All You Need

(ולהסרת כל ספק קל שבקלים: לא קראתי אותו). ביקשתי מג'פטו סיכום בעברית והרי התוצאה:

אני אנסה לתקזר‏¹ את המאמר "Attention is all you need" בעברית. הנה תקציר קצר של המאמר:

- **הרעיון המרכזי**: המחברים מציעים ארכיטקטורת רשת חדשה ופשוטה, ה-Transformer, המבוססת רק על מנגנוני תשומת לב, בלי שימוש ברשתות נוירונים חוזרות או קונבולוציוניות.
- **המשימות הנבדקות**: המחברים מראים שה-Transformer משפר את הביצועים במשימות של תרגום מכונה וניתוח תחבירי של משפטים באנגלית, בהשוואה למודלים קיימים ולקווי בסיס.
- **היתרונות העיקריים**: ה-Transformer מאפשר לרשת להתמקד בחלקים שונים של הנתונים הקלט, ולקבוע אילו אלמנטים הם הרלוונטיים ביותר למשימה הנוכחית. יתרון נוסף הוא שה-Transformer יותר קל להקביל ולאימון מאשר רשתות חוזרות או קונבולוציוניות.
- **המקורות העיקריים**: המאמר מבוסס על מחקרים קודמים בתחום התשומת לב, הרשתות הנוירוניות החוזרות והקונבולוציוניות, והארכיטקטורת ה-encoder-decoder. המאמר מכיל רשימה רחבה של מקורות לקריאה נוספת.

Source: Conversation with Bing, 25/01/2024
(1) [1706.03762] Attention Is All You Need - arXiv.org. https://arxiv.org/abs/1706.03762.
(2) Attention Is All You Need - arXiv.org. https://arxiv.org/pdf/1706.03762v5.pdf.
(3) Understanding Google’s “Attention Is All You Need” Paper and Its .... https://alok-shankar.medium.com/understanding-googles...
(4) Transformer (machine learning model) - Wikipedia. Transformer_%28machine_learning_model%29. [Wikipedia]
(5) undefined. https://doi.org/10.48550/arXiv.1706.03762.
____________

‏¹- איזו שגיאה משונה!

ג׳פטו 4

766395

הפונז • בתשובה לשוטה הכפר הגלובלי

יום ה', 25/1/2024, 11:39

‏¹ To Zummarize?

ג׳פטו 4

766431

רק לדקה • בתשובה לשוטה הכפר הגלובלי

יום ה', 25/1/2024, 20:25

לא הייתי מייחס לשמות של מודלים או רכיבים בארכיטקטורות (Attention, Long Short Term Memory וכדומה) יותר משמעות מאשר מיתוג, ובאמת מדובר במיתוג טוב מדי פעם שבאמת עוזר ללמוד ולזכור איך הם עובדים בערך. נתקענו עם אנלוגיה היסטורית בין רשתות נוירונים לנוירונים אז המיתוג בהתאם.

אני די בטוח, בכל זאת, שיש טעם לדבר על הקשר בין מעבר ממודלים חוזרניים (recurrent?) בלי חלונות לקלט לטרנספורמרים עם חלון קבוע, לבין "הפרעות הקשב" שאפשר לזהות בפלטים של מודלים. אני אפילו מנחש שיש מי שבדק דברים כאלו (ניסיתי את הקישורים במקורות שג'פטו שלח לך ולצערי אף אחד מהם לא ממש נוגע בזה).

ג׳פטו 4

766440

אפופידס • בתשובה לרק לדקה

יום ו', 26/1/2024, 12:18

הערה קטנה: זה אכן מיתוג, אבל כמו במקרה של טכנולוגיית TWAIN, השם מאוד אינדיקטיבי. להבנתי, גם Attention וגם LSTM עושים משהו שמקביל במידה מסויימת לקשב האנושי: אם יצירתם משובשת, מקבלים (בסקאלה מסויימת) התייחסות לטפל במקום לעיקר, שזה מה שלפעמים היה קורה לי ללא ריטלין.

זה מזכיר לי דפוס כללי יותר בהתפתחות רשתות הנוירונים העמוקות, אליו שמתי לב‏¹. בשלב מסויים שררה גישה פשטנית, לפיה נחבר כמה שיותר נוירונים אחד לשני, וגודש ה-data של האימון כבר ידאג לחזק את הקשרים החשובים ולאפס את האחרים. די מהר התברר שלא רק שזה הופך את האימון יקר וארוך, אלא גם שהתוצאות לא משהו: בהינתן מספיק data, הרשת חיזקה והחלישה לאו דווקא את הקשרים שהיינו רוצים. עודף הקישוריות הביא ל"זיהויים" של קשרים טפלים ודפוסים מדומיינים (מה שאולי מזכיר סכיזופרניה).

פריצות הדרך בתחום היו במידה רבה ע"י תיכנון רשתות בהן "עזרנו" לרשת ע"י ארכיטקטורה שמראש מנעה את רוב הקשרים. כלומר, הבנו היכן זקוקה הרשת לחופש והיכן הוא לרועץ.
רשתות CNN שתוכננו לראיה, נתנו מלכתחילה עדיפות לקשר שבין פיקסלים סמוכים, כמו בחיים, ולאחר מכן, בין אוספי סמוכים של פיקסלים וכן הלאה, עדיין כמו בחיים. ברשתות שאמורות להבין טקסט, תועדפו קשרים בין מילים סמוכון, ובין חלקים קצת פחות קרובים באופן אחר, עם עדיפות נמוכה מאוד לחלקים רחוקים. זה גם נכון ל-self attention (עם תיאור קצת יותר מורכב).

זה אולי מזכיר את השערת המבנים המולדים במוח.

‏¹ גילוי נאות א': עבדתי בתחום, כולל כתיבת טרנספורמרים. גילוי נאות ב': לא בדקתי את התהליך המשוער באופן יסודי.

ג׳פטו 4

766445

שוטה הכפר הגלובלי • בתשובה לאפופידס

יום ו', 26/1/2024, 15:13

"זה אולי מזכיר את השערת המבנים המולדים במוח." - בדיוק מה שחשבתי כשקראתי את תחילת ההודעה שלך (וזה המקום להמליץ שוב על הספר הזה).

ג׳פטו 4

766447

יובל נוב • בתשובה לשוטה הכפר הגלובלי

יום ו', 26/1/2024, 15:19

נעלבתי עמוקות מכך שלא קישרת לדיון 2244.

ג׳פטו 4

766449

שוטה הכפר הגלובלי • בתשובה ליובל נוב

יום ו', 26/1/2024, 15:47

תתנחם בכך שהעלבון שלך יעבור מהר, בעוד הסניליות שלי רק הולכת מחיל אל חיל.

או, כדברי ווינסטון: מחר אתה תהיה פיכח, אבל אני אשאר מכוער.

חזרה לעמוד הראשי

המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים
RSS מאמרים \| כתבו למערכת \| אודות האתר \| טרם התעדכנת \| ארכיון \| חיפוש \| עזרה \| תנאי שימוש והצהרת נגישות	© כל הזכויות שמורות