רשתות נוירונים - AMA 698327
הדיון כאן מלא באי-דיוקים, שגיאות גסות ותפיסות שגויות בכל הקשור ל-"למידה עמוקה". דאנינג-קרוגר אול-ארונד :)

אני עוסק באינטנסיביות משתנה, אך ברציפות, ברשתות-נוירונים החל מבערך 2010. אני מכיר לא-רע גם את הזירה המחקרית וגם את זו המסחרית, גם את התאוריה וגם את הפרקטיקה. אתם מוזמנים לשאול אותי מה שבא לכם, ואשתדל לענות.

בינתיים, קצת היסטוריה ורקע: Deep Learning הוא המיתוג האחרון של נושא שראשיתו בשנות החמישים. במובן מסויים, לא המון השתנה מאז. ההישג הגדול והראוי לציון של השנים האחרונות הוא שלמידה ממוחשבת חזרה למקומה הטבעי: מתישהו לאורך הדרך התחום נגרר להיות "אלגוריתמים אדפטיביים לסטטיסטקאים", למרות שמראשיתו הוא נועד להיות "אלגוריתמים אדפטיביים לבינה מלאכותית".

לפי ההיסטוריוגרפיה המקובלת 50-60 השנה האחרונות מחולקות לשלוש תקופות (לפעמים מדברים על "שלושה גלים"): התקופה הראשונה מתחילה קצת לפני 1960 ומסתיימת קצת אחרי 1970, התחום מותג אז כ-"connectionism", והתמקד בעיקר בפרספטרונים (שהן מעין "רשתות" של נוירון אחד). המודל החישובי עצמו של הפרספטרון הומצא עוד הרבה לפני כן, ב-‏1943 (McCulloch–Pitts neuron). בערך מהיום הראשון כבר ידעו לומר שכמודל-חישובי רשתות נוירונים הן Turing-complete, אך רק ב-‏1958 התחילו לצוץ אלגוריתמי למידה עבורו. התחום יצא מהאופנה בתחילת שנות השבעים, מסיבות לא לגמרי ברורות. האגדה האורבנית מספרת שהגורם המרכזי לכך הוא הספר perceptrons שיצא לאור ב-‏1969 ועסק רבות במגבלותיהן של ארכיטקטורות מסויימות. לרוב מציינים את הוכחתו לכך שרשתות של נוירונים לינארים אינן יכולות לייצג אפילו פונקציות פשוטות כמו xor כגורם שדיכא את המוטיבציה לכולם. לי קשה להאמין בכך, כי (א) דא! ו-(ב) כאמור, באותו זמן כבר ידעו כמה עשורים שרשתות פשוטות קצת אחרות הן בעלות כוח חישובי אוניבריסלי. בכל מקרה, בסביבות שנות השבעים אנשים איבדו עניין (לא רק ברשתות נוירונים, אלא בלמידה ממוחשבת בכלל).

הלמידה-הממוחשבת זכתה לפריחה מחודשת בתחילת שנות השמונים, והעניין בה שוב דעך במהירות. אך הפעם במקביל לדעיכה הכללית בעניין שעוררה הלמידה הממוחשבת, התעורר עניין רב (יחסית...) ברשתות-נוירונים, ואת הגל השני נהוג לזהות עם השנים שבין כ-‏1985 לכ-‏1995. בתקופה זו המיתוג העיקרי של התחום היה תחת הכותרת Artificial Neural Networks, והוכח המניע העיקרי של הגל השני היה "גילויו" של "אלגוריתם" ה-backpropagation שאפשר לאמן באופן שיטתי רשתות היררכיות עם כמה שכבות (כל המרכאות קודם נועדו להבהיר שמדובר ברעיון מאד פשוט ומוכר היטב, ִשרק חיכה שמישהו ישתמש בו בהקשר המתאים). רעיון אחר, סופר-מגניב ואורתוגונלי לחלוטין שהיווה תשתית לרעיונות סופר-מגניבים אחרים הוא של רשתות Hopfield (מ-‏1982) שהמוצאו כדרך למדל מתמטית "זיכרון אסוציאטיבי" במובן הפסיכולוגי. עוד הרבה רעיונות שהיום לפעמים מדברים עליהם כאילו הם חידושים מרעישים (כמו autoencoders או תאי LSTM) הומצאו למעשה בתקופה הזו. הסוף המר הגיע באשמת ופניק שבבסביבות 1992 המציא את ה-SVM שמשך אליו את כל הייפ. היה לו "סוג-של" ביסוס תאורטי (במונחים של PAC למי שמכיר) וביצועים פרקטיים מצויינים לאותו-הזמן, וההתגבשה הדיעה שרשתות-נוירונים הם רעיון מגושם שעבר-זמנו.

כמעט כולם חשבו ככה, אבל לא כולם כמובן. ג'ופרי הינטון, שחלק גדול מהקרדיט לגל-השני מגיע לו (הוא אחד מהחתומים על ה-backpropagation) שמר על אמונתו, והביא במו-ידיו גם את הגל השלישי - הפעם תחת המותג Deep-Learning. ב-‏2002 הוא מצא אלגוריתם יעיל לאמן מודלים (מהמודלים הסופר-מגניבים שקשורים לרשתות Hopfield) שנקראים Restricted Boltzmann Machines (או בקיצור, RBMs). אפשר לחשוב עליהם כרשת-נוירונים שטוחה מאד בעלת שכבה יחידה שמאומנת באופן לא מפוקח (unsupervised learning) כדי ללמוד generative models (כלומר מודל שיודע להמציא "דוגמאות חדשות" שנראות כאילו הן נלקחו מתוך אוסף של דוגמאות נתונות). האלגוריתם (הידוע בשם Contrastive-Divergence algorithm), ביחד עם תוצאה נוספת של הינטון מ-‏2006 שהסבירה איך אפשר לשרשר הרבה RBMs ולקבל רשת עמוקה עם הרבה שכבות שאותה אפשר לאמן באופן מפוקח (supervised learning) היווו את הבסיס לצמיחה המחודשת של התחום (עד לפני כמה שנים זו הייתה בערך הדרך היחידה לאמן רשתות-עמוקות, אבל היום כבר אף אחד לא משתמש בה). אם אתם זוכרים את התחרות של Netfix שהציעו ב-‏2009 פרס של מיליון דולר למי שיצליח לשפר את אלגוריתם ההמלצה שלהם, אז RBMs היו מרכיב משמעותי באלגוריתם שזכה בפרס.

באותה שנה (2009) - אחרי שרשתות נוירונים כבר התחילו לתפוס תאוצה משמעותית - התחילו להשתמש ב-GPUs כדי לאמן אותן. אבן דרך חשובה נוספת התרחשה ב-‏2012, אז רשת (קונבולוציה) בשם AlexNet (שוב הינטון היה מעורב...) זכתה בתחרות ראייה-ממוחשבת מפורסמת, והביסה לראשונה (ובהפרש ניכר) אלגוריתמים מבוססי SVM. מאז ועד היום כל התחום של ראייה ממוחשבת עבר מהפכה מוחלטת, וכמעט כולו נשען היום על רשתות קונבולוציה. בהמשך לתימת ה-"אין חדש תחת השמש" אציין שרשתות-קונבולוציה קיימות בשימוש מסחרי עוד מ-‏1989, ושלמרות המיתוג החזק שלהן, מדובר ברשות-נוירונים רגילות לחלוטין מהוסג הפשוט ביותר (feedforward networks).

הרבה דברים שאף אחד לא האמין שאפשר יהיה להשיג לפני שנשיג AI מלא נוסח אסימוב או דאטא ממסע בין כוכבים, הושגו. רשתות נוירונים טובות יותר מבני האדם הכי טובים במשחקים מורכבים כמו Go או פוקר, ובמשימות בהן היה אפשר לחשוב שאנחנו מוצלחים במיוחד כמו זיהוי-פנים או אפילו זיהוי רגשות מתוך הבעות פנים. ויש עוד (הרבה מאד) דוגמאות אחרות, mind-blowing במידה דומה. כל הדיון לעיל על הצורך ב-"אינטואיציה אנושית" בנהיגה הוא די קומי :)

לפני סיום, יש שלושה נושאים אליהם אני רוצה לומר משהו:

(1) יש שם תאוריה\עומק\עניין? מלא. אני לא יודע מאיפה להתחיל. קודם כל, והכי פחות מעניין, "רשתות נוירונים" הן יותר פרספקטיבה על למידה-ממוחשבת מאשר "משפחה ספציפית של מודלים". למשל גם SVMs וגם מודלים לינארים מוכללים (כמו רגרסיה לוגיסטית) הן "סוג של" רשתות נוירונים. אז כמושא מחקרי הן עשירות לפחות כמו התחום כולו. שנית, יש מגוון עשיר ומאד מורכב של רשתות נוירונים. התאוריה המתמטית מאחורי energy-based models ו-attractor-networks כמו מכונות בולצמן היא מאד עשירה (וקשורה אינטימית ל-mean-field theory וגיאומטריה סימפלקטית למשל), וכך גם התאוריה (המתגבשת) מאחורי הדינמיקה של אימון GANs (שאותה אפשר לפרמל כמשחק סכום-אפס של שני סוכנים אדפטיביים, שמתכנסת - או שלא - לשווי-משקל נאש). שלישית, התחום מלא בִשאלות תאורתיות פתוחות ומאד מסקרנות. הגדולה מכולן היא כמובן "למה זה עובד?". כלומר, למה stochastic gradient descent מתכנס לנקודות אופטימום לוקליות כל-כך מוצלחות (יותר מוצלחות מאלגוריתמי-אופמיזציה מוצלחים יותר, נגיד קוואזי-ניוטונים) מנקודת המבט של generalization. הכיוון המסתמן קשור ככל הנראה לגיאומטריה של משטחי-השגיאה ובפרט לעקמומיות הלוקלית סביב הפיתרונות המתקבלים (כל מיני מושגים של flatness), שלהן יש גם אינטרפטציה (אולי שקולה) במונחים של תורת-האינפורמציה (נגיד, ה-information bottleneck של תישבי שאולי מוכר לחלק מהקוראים כאן - הרעיון בקצרה הוא שרוב המאמץ באימון כנראה לא מושקע במיקסום האינפורמציה-המשותפת בין התצפיות לבין ערך-המטרה, אלא דווקא במיזעור האינפורמציה המשותפת בין התצפיות לבין הייצוג הפנימי שלהן).

(2) זה וודו! לאף אחד אין מושג מה הוא עושה! זה סתם ניסוי-וטעייה! במובן מסויים, כן. אבל אפשר להבין זאת כבעיה רק אם ממסגרים לא נכון את הסיטואציה. המסגור הנכון הוא פשוט זה: הצד המעשי של "שימוש ברשתות ניוירונים" זה סוג של הנדסה. ובדיוק באותו מובן הנדסת-תוכנה זה "וודו וניסוי טעייה"; מתי לאחרונה המתכנתים כאן השתמשו בתורת החישוביות בעבודה שלהם, או הסתמכו על הוכחות פורמלית כאשר הם עסקו בעיצוב או ארכיטקטורת תוכנה?. ובאותו מובן גם למידה-ממוחשבת "קלאסית" היא "וודו וניסוי טעייה"; מתי לאחרונה ראיתם מישהו נותן הצדקה פורמלית לבחירת ה-kernel וההיפר-פרמטרים של ה-SVM שלו, ומה זה בדיוק feature engineering אם לא ה-epitome של "ניסוי וטעייה"? אם כבר, אז העבודה עם רשתות-נוירונים קרובה הרבה יותר למדע או להנדסה-מסודרת מאשר האלטנרנטיבות. ואגב, יש ראיות תאורטיות חזקות לכך שלנצח זה יהיה המצב (כלומר, לא יהיה אף פעם "אלגוריתם למידה אולטמטיבי" שאפשר יהיה לעבוד איתו כמו קופסה שחורה באופן מכני לחלוטין).

(3) סקיינט הגיעה, והאנושות אבודה שאלה פתוחה :) ואפשר להבין אותה בכל מיני מובנים. בתור התחלה, ישנן הרבה עבודות שכנראה יעלמו מהעולם בקרוב (נהגים כמובן, אבל כנראה שגם הקריירה של חלק מעורכי-דין ולפחות חלק מהרופאים למשל חיה על זמן שאול). האם זה טוב או רע? נחיה ונראה (אין אפילו טעם להתווכח על זה... זה פשוט יקרה, וסביר שדי בקרוב). חוץ מזה, אנשים מסויימים מפחדים מתרחיש "יום הדין" בסגנון שליחות קטלנית, בו המכונות יצאו נגדנו (למשל החבר'ה מmiri). אני לא שותף לחשש הזה (בקצרה: סיבה אחת היא שאין שום סיבה ש-AI מלא ו-agency יהיו כרוכים יחדיו, וסיבה שניה היא שמן הסתם לא תיהיה AI אחת, אלא יהיו הרבה).

ולפינת הספקולציה הטהורה: יש תרחיש אחד שכן מפחיד אותי, וראינו ניצנים שלו עכשיו בפרשת Cambridge Analytica. שחקני גו מובילים ששיחקו (וכמובן הפסידו) מול רשת-נוירונים תיארו את החווייה כ-"משחק מול חייזר". הם לא הבינו מה הצעדים שהרשת עושה ולאן היא חותרת, ואז פתאום כבר היה מאוחר מידי והם הפסידו. שחקני פוקר מובילים ששיחקו (והפסידו כמובן) מול אלגוריתם תיארו חוויה דומה (וזו סביבה אולי מעניינת יותר, בגלל המרכזיות של "בלופים" ו-false signaling בתוכה). אם מחברים את האופן היעיל עד-כדי-שיתוק בהם "שחקני בינה-מלאכותית" מסוגלים לפעול, יחד עם כמות המידע באשר לתקשורת אנושית והרזולוציה שלו (לא רק רשתות חברתיות! גם במשימות כמו "תמלול של דיבור" או "קריאת שפתיים" רשתות נוירונים כבר טובות יותר מבני-אדם), זו תהיה הפתעה אם לא יהיה אפשר לבצע מניפולציה עדינה ואפקטיבית בעמדות ודיעות של אנשים בהיקף נרחב. אני לא מדבר על "תעמולה", "פייק-ניוז" או שיטות גסות כאלה. אני מדבר על השפעה עצומה על דיעות של אנשים שקולים ומיושבים בדעתם (כמוכם וכמוני, הייתי רוצה להאמין) באמצעות הדגשה והצנעה מחושבת של אינפורמציה, שליטה עדינה במסלולי ההפצה שלה, משחקי ניסוח קלים וכדומה. דברים בלתי-מורגשים שאת האפקט שלהם קשה (לבני אדם) לאמוד וקשה (לבני אדם) לתמרן או להעריך את משקלן, אך אלגוריתמים מתוחכמים דיים כנראה יוכלו לעשות בקלות (כמו הצעדים המסתוריים של התוכנה ב-go או הבלופים של התוכנה בפוקר), ולתמרן באוכלוסיה כולה תוך ניצול החולשות הקוגנטיביות הטבועות בכולנו מבלי שאף אחד בכלל ירגיש. אני לא חושב על איזה "המון נבער" אלא מסתכל על עצמי, אדם יחסית מושכיל, רציונלי ומודע - ואני משוכנע שאפשר לשחק בי בקלות בשיטות כאלה. גם בכם. כאמור, אני לא חושש שאיזו בינה-מלאכותית תעשה זאת על "דעת עצמה" אלא שבעלי-אינטרס ישתמשו בבינה מלאכותית באופן הזה כדי לקדם את עצמם.
רשתות נוירונים - AMA 698331
תודה רבה על התגובה המושקעת.

תוכל בבקשה לפרט איך רגרסיה לוגיסטית, למשל, היא מקרה פרטי של רשת נוירונים?
רשתות נוירונים - AMA 698342
הצורה הפונקציונלית של רגרסיה לוגיסטית היא הרכבה של העתקה-אפינית עם פונקציית סיגמואיד, ואפשר לייצג אותה בקלות על ידי "רשת" בעלת נוירון יחיד עם אקטיבציה סיגמואידית. אימון של הרשת תוך שימוש ב-cross-entropy כפונקציית שגיאה, תוביל בדיוק לאומדן הנראות המירבית של מקדמי הרגרסיה. רשתות גדולות המשמשות לקלסיפיקציה בינארית אפשר להבין כהרכבה של חלק מסובך שלומד ייצוג מוצלח של התצפיות, עם חלק פשוט ששקול לרגרסיה לוגיסטית הקושרת בין הייצוג הנלמד לערך המטרה.
רשתות נוירונים - AMA 698446
ואללה, הסיגמואיד של פונקציית logit באמת יכול בדיוק להתלבש על פונקציית האקטיבציה של נוירון, אז זה מסתדר. אבל מה עם מודלים לינארים מוכללים אחרים, למשל רגרסיה פואסונית? או אפילו עם רגרסיה לינארית רגילה? איך מתמודדים ברשתות נוירונים עם פונקציות שהטווח שלהן לא חסום?
רשתות נוירונים - AMA 698513
כאשר ערך-המטרה אינו חסום (כמו במקרה של רגרסיה לינארית) המצב פשוט במיוחד: לא משתמשים באף פונקציית אקטיבציה, והשכבה האחרונה (והיחידה, במקרה של רגרסיה לינארית) היא רק פונקציה אפינית.

ככלל אצבע, כאשר מדובר ברשתות-נוירונים - ייצוג הוא אף פעם לא בעיה. הדימוי של רשת נוירונים כ-"אוסף של פונקציות זהות מסודרות בשכבות" הוא מאד מטעה. רשתות feed-forward (אני מתאר לעצמי שעליהן אתה חושב כשאתה חושב על רשתות-נוירונים) מייצגות פונקציות באמצעות מבנה (computational graph) שיכול להיות מורכב מאד, הרבה יותר מסתם "שכבות". וכאמור רשתות feed-forward הן רק חלק מהסיפור, ובהחלט לא הסיפור כולו.

אבל אפילו אם מגבילים אותן למבנה של שכבות, ואפילו אם מגבילים את מספר השכבות ל-‏2 - הן עדיין יכולות לייצג כל פונקציה.
רשתות נוירונים - AMA 698336
תודה גם בשמי, על החלקים שהבנתי (שהם בעיקר מילות יחס).

בעניין החשש שלך מפני השפעות לא מודעות, האם לא ניתן יהיה להתגונן בפני אותן "חולשות קוגניטיביות" ע"י רשתות ידידותיות שבניגוד לנו כן יוכלו לזהות את המניפולציות? אולי יתפתח עוד מירוץ של תוקפים ומגנים כמו אלה שאנחנו מכירים בהרבה שטחים, אלא שהשחקנים הפעם יהיו רשתות נוירונים.
רשתות נוירונים - AMA 698343
אני לא יודע, אבל אני מנחש שאפשר (וכנראה יש גם עוד פתרונות אחרים, טכנולוגים וחוקיים). הבעיה הגדולה היא שמהערכת התמריצים בעולמנו צפויה להפנות הרבה יותר משאבים ואנרגיה לחבר'ה הרעים מאשר לטובים. לכולם יש אינטרס לתמרן אותך.
רשתות נוירונים - AMA 698339
תודה!

"מתי לאחרונה המתכנתים כאן השתמשו בתורת החישוביות בעבודה שלהם, או הסתמכו על הוכחות פורמלית כאשר הם עסקו בעיצוב או ארכיטקטורת תוכנה?"

(אני מניח שהפסקה הזו היא תשובה במידה רבה לתגובה 698311 שלי) כמעט אף פעם לא, אבל מה שאנחנו עושים הוא כמעט אף פעם לא וודו - אנחנו חותרים באופן מובנה, תכליתי ומנומק לכל מטרת משנה (פתרון באג נתון). פעם בכמה ימים יש רגעים של וודו, בעבודה מול מערכת אחרת שאתה לא רוצה להשקיע ימים בלהבין אותה לעומק ומוצא משהו שעובד בלי שאתה מבין למה. אבל זה חלק קטן מאוד בעבודה.
רשתות נוירונים - AMA 698345
אני חושב שהמצב בהנדסת תוכנה ובפיתוח רשתות-נוירונים מאד דומה. בסופו של דבר, כאשר יושבים אנשים ובונים רשת-נוירונים, הם יודעים מה האלטרנטיבות שעומדות מולן בהנתן בעיה ספציפית, ואיך לשקול אותן. הם יודעים למה לצפות, ויודעים להבין את הבעיות הצפויות. הם יכולים להמנע מראש מחלקן, ולזהות את האחרות שבכל זאת צצות. והם מכירים best practices כדי לפתור אותן. יש לרשותם מתודולוגיה עשירה, הנשענת בחלקה על ידע תאורטי וחלקה (הגדול יותר) על ניסיון מעשי. והמתודולוגיה כמובן משתנה עם הזמן, גם בזכות ידע שהולך ונצבר, וגם בשל אופנות וטרנדים.

בפיתוח תוכנה, נכון שכאשר מדובר ביישום של אלגוריתמיקה או business logic אין בכלל וודו באופן עקרוני, אבל כמעט תמיד הוא נמצא שם באופן מעשי, בגלל מנגנונים (עם סייד-אפקטס מורגשים) שמסתתרים מאחורי אבסטרקציה שאותה המתכנת לא ממש מכיר (ה-cache replacement policy של המעבד, ה-congestion control בראוטר, אופטימיזציות של הקומפיילר וכו'). הדרך להתמודד עם זה היא כמובן לדבוק בשיטות-פיתוח בדוקות ומקובלות בתקווה שהכל פשוט יעבוד, ולעבור לווריאציות של ניסוי-וטעייה כשזה לא עובד. וכאשר מדובר בעיצוב תוכנה - אז כבר כמעט כל ההחלטות נשענות על היוריסטיקות ומורשת קרב. זה אולי לא "וודו", אבל זה עונה לתיאור "מובנה, תכליתי ומנומק" רק במובן מאד רחב, שתקף באותה מידה גם לבנייה ואימון של רשתות נוירונים.

ואולי בכלל השוואה "הוגנת יותר" היא בין פיתוח רשתות-נוירונים לבין פיתוח פתרונות במסגרת "למידה ממוחשבת קלאסית" (באמצעים כמו gradient boosting או SVMs). שם אני חושב שהמצב לא שקול, אבל בכלל שלרשתות-נוירונים יש יתרון מתודולוגי ברור.
רשתות נוירונים - AMA 698346
מעניין, תודה.
רשתות נוירונים - AMA 698350
תגובה נאה.

בקשר למשפט האחרון שלך, בעלי-אינטרס משתמשים כבר היום בבינה "באמצעות הדגשה והצנעה מחושבת של אינפורמציה, שליטה עדינה במסלולי ההפצה שלה, משחקי ניסוח קלים וכדומה" כדי "לתמרן באוכלוסיה כולה תוך ניצול החולשות הקוגנטיביות הטבועות בכולנו". רק שזו אינה בינה מלאכותית, קוראים לזה פוליטיקאים‏1, ולמרות הבוז שנפוץ לחוש להם, גם כאן באתר, חלקם עושים זאת במיומנות שלא היתה מביישת שחמטאי רב אמן.
אז למה אתה מוכן לקבל את זה אבל מפחד דוקא מבינה מלאכותית?

1 או פרסומאים, ויש עוד כמה.
רשתות נוירונים - AMA 698351
עם כל הכבוד ליכולת המניפולציה שהפוליטיקאים והביליונרים שמאחוריהם מפגינים היום, הפער בין היכולת שלהם לשחק בדעת הקהל לבין היכולת הפוטנציאלית של בינה מלאכותית לעשות זאת מגמד את הפער בין היכולת שלהם לשחק שחמט לבין היכולת של בינה מלאכותית לעשות זאת.

החשש שלי הוא מהבדל כמותי כ''כ גדול, שהוא הופך להבדל איכותי, שמאפשר לא ''מניפולציה'' אלא כמעט ''שליטה'', ולא ב-''המונים'' אלא בכמעט כולם. מערכת שתוכל לגרום לדב אנשלוביץ לתמוך במרץ ולארז לנדוור לאמץ את מצע הבית היהודי (ולשניהם לקנות המון קולה, כמובן).

אבל כאמור, זו ספקולציה מוחלטת, והיא לא ממש קשורה לכל שאר הדיונים כאן. אז לא ארחיב עוד על איך אני חושב שזה אפשרי.
רשתות נוירונים - AMA 698352
הבעיה שלי עם זה - למה שאלגוריתם הבינה המלאכותית של הליכוד יהיה חזק מזה של העבודה? יחסית למצב הנוכחי, בו ביבי הקוסם מסובב את כולם על האצבע, דוקא הגישה של כולם לאלגוריתמים כאלה היא סוג של דמוקרטיזציה של המניפולציה. באגע שלכולם יש את הכלים האלה, הרבה יותר קשה למניפולטור יחיד לקחת את כל הקופה.
רשתות נוירונים - AMA 698360
לפני כמה שנים נחשף שפייסבוק ערכה בחשאי ניסויים בהשפעה של חדשות על רגשות המשתמשים.
רשתות נוירונים - AMA 698363
ובאשר ל"לקחת את כל הקופה" - יש לנו דוגמה היסטורית אחרת לתהליך דומה: המסחר האלגוריתמי. שנראה לי שדי מדגים את הטענה שלי.
בטרם קיום המסחר האלגוריתמי, עיוותים והזדמנויות פז שנוצרו בשוק נוצלו על ידי בינות לא-מלאכותיות חדות עין וחושים כדי לגרוף הון ממסחר ולהפוך ל"גאון פיננסי" - המקבילה ל"קוסם פוליטי" מהתחום לעיל.
כיום האלגוריתמים האלה מזהים בחלקיקי שניות כל סטייה שכזו וסוגרים אותה מיד, מה שמקטין מאד את היכולת של סוחרים אנושיים בודדים לגרוף רווחים ממסחר ספקולטיבי (וגם אחר מן הסתם). וכך "הפסדנו"‏1 מאות גאונים-פיננסיים-של-המאה-‏20 שמסתובבים בינינו כאנשים פשוטים של המאה ה-‏21 שאולי מתפרנסים בכבוד אבל לא יותר מזה.

1 ואולי הרווחנו?‏2
2 למען ההסתייגות אומר שלמסחר האלגוריתמי יש יתרון מובנה שיטתי ובזוי - לא, לא המהירות שלו - שנותן לו פור לא הוגן כלפי שאר הסוחרים, שזה העמלות האפסיות שלו, בסדרי גודל מתחת לכל סוחר אחר. אבל על זה כבר התלוננתי כאן לא מעט וזה לא נושא הדיון.
רשתות נוירונים - AMA 698367
במסחר במטבעות דיגיטליים נפוץ מאד שימוש בבוטים שמייצרים המון הודעות סרק שנועדו להפיל בפח את המשקיעים (מהמרים?) הפשוטים. כך, האלגוריתמיקה יכולה לעקוב לא רק אחרי נתוני המסחר אלא גם אחרי ההפצה של ההודעות האוטומטיות (והרבה פעמיפ לא אמיתיות או מטעות) ולםי זה לנווט את הפעילות של מי ששולט במנגנונים האלה.
רשתות נוירונים - AMA 698413
החשש הוא לאו דווקא מזה שגוף אחד יקח את כל הקופה; עצם זה שאני נתון למניפולציות כאלה, גם אם הן בסוג של "תיקו" בין גורמים יריבים, הוא מטריד מאין כמוהו.
(אנלוגיה: בחשש הנושן, שלמדנו איכשהו לחיות איתו ואולי אינו כה כבד, שמפרסמים שוטפים לנו את המוח, לא מנחם אותי במיוחד אם פפסי וקוקה שוטפות את מוחי בשיווי משקל.)
רשתות נוירונים - AMA 698414
כן, אבל:
- במה זה שונה ממה שכבר קורה היום?
- בפוליטיקה למשל שטיפת מח הדדית קצת מבטלת את האפקט, מהסיבה הפשוטה שהמקרר שלך סובל בקבוק פפסי ליד בקבוק קולה אבל מעטפת ההצבעה שלך בקלפי לא.
רשתות נוירונים - AMA 698426
ההבדל מהיום הוא לא בהכרח הבדל קטגורי, אבל יכול להיות הבדל כמותי של סדר גודל, מבחינת מידת השליטה בי והמידה שזה מצמצם, במובן מסוים, את הערך שלי והרצון החופשי שלי. לפחות כך אני מבין את החשש של עומר.
רשתות נוירונים - AMA 698361
כדי לגרום לי לתמוך במרץ תצטרך המערכת לדעת לשנות את חוקי הטבע.
ואפרופו, חשבתי דווקא על בעיית הכיכר שהציג נדב בתגובה 698219 עניתי לו שכפי הנראה אם נחשוב הרבה נוכל בסופו של דבר לפתור את הבעיה הזאת. אחר כך באמת חשבתי, והגעתי למסקנה שהפתרון אכן יימצא ואפילו די בקלות אבל הוא יהיה חייב להיות על ידי הגמשת חוקי התנועה‏1 כי אין שום פטנט שמאפשר את פתרון הבעיה כשמקפידים על חוקי התנועה כלשונם. קשה לי לחשוב איך החלטה על רשות לשנות את חוקי התנועה יכולה להגיע ממערכת ממוחשבת ואפילו המשוכללת ביותר. בסופו של דבר צריך שאיזה אדם ייתן לה את הרשות לעשות זאת. הרי היא לא תעבור על הסמכויות שהעניקו לה, ואילו האדם "באופן אינטואיטיבי" מרשה זאת לעצמו.

1 אני חושב שבעולם שבו יהיו רק מכוניות אוטונומיות לא יהיו בכלל חוקי תנועה, או שלפחות לא יקראו לזה כך. יהיה איזה אלגוריתם שמסדיר את התנועה.
רשתות נוירונים - AMA 698362
הבעיה הזו, כמו בעיקרון כל הבעיות האחרות עם רכבים אוטונומיים, כבר נפתרה. מזמן. מזה כמה שנים (אני לא בטוח כמה הפיתרון לבעיה הספציפית הזו עתיק; המספר הוא בין 5 ל-‏25 שנים) מכוניות אוטונומיות יודעות להתמודד עם כיכרות בתנאים "טבעיים" (כלומר בחברת מכוניות עם נהגים, ותחת חוקי-התנועה הנוכחיים).

אני לא רוצה ליצור את הרושם שנהיגה-אוטונומית זו בעיה קלה (היא לא), אבל היא ככל הנראה הרבה יותר קלה ממה שחלק מהאנשים כאן חושבים. הנה וידאו עם הדגמה והסבר קצר על הנושא, משנת 1997, המציג פרוייקט שייצר מכונית אוטונומית כבר בשנת 1986.
רשתות נוירונים - AMA 698403
תודה על התגובה המושקעת.
ברצוני לשאול על משהו שעורר את סקרנותי. לי נראה מובן מאליו שכל אלגוריתם המנסה ל"הבין" סרט על בסיס של סדרת תמונות בודדות הוא שגוי מיסודו. לראיה, אפשר לקחת סדרת תמונות ולערבב אותה. ברור שרוב הסידורים החדשים יהיו חסרי ערך כסרט רציף.
האם ריבוי השכבות כולל בתוכו גם השהיית תמונה בין שכבה לשכבה, כך שכל תוצאה של העיבוד היא בהשהיה מסויימת תוצאה של תמונה מסוימת ועוד הרבה תמונות לפניה שנמצאות באותו זמן במערכת (בשכבות השונות)?
כמה כבדה מערכת "הבנת תמונה" על בסיס רשת נוירונים עמוקה? האם מערכת כזו יכולה לזהות מכשול מסוכן/לא מסוכן בסקאלת זמן של מאיות שנייה?
רשתות נוירונים - AMA 698405
הרחבת השאלה של שוקי: האם יש גם רשתות נוירונים עם מצבים פנימיים שיכולים לבטא במידה כלשהי את ההקשר? בעיקרון אני יכול לדמיין רשת עם משוב, כלומר שחלק מהפלט שלה מצטרף אל הקלט של האיטרציה הבאה אבל יש לי הרגשה שאני not even wrong.
רשתות נוירונים - AMA 698409
not even wrong? תיארת בגדול את הסכמה הנפוצה ביותר להתמודד עם הסיטואציה.

לרשתות כאלה - שמופעלות איטרטיבית ובכל צעד הקלט שלהן כולל בין השאר (בנוסף לתצפיות, בד"כ) גם קידוד של "המצב הנוכחי", והפלט שלהן כולל בין השאר (בנוסף לתחזיות, בד"כ) גם את הקידוד של "המצב החדש" - קוראים RNNs (ר"ת של Recurrent Neural Networks). אפשר לחשוב עליהן בתור הכללה של מודלי state-space קלאסיים כמו ה-Kalman filter או Hidden Markov Models. האימון והתכנון שלהן נוטה להיות טריקי; הן באופן כללי צריכות גם ללמוד כיצד ה-latent state קשור לתצפיות, וגם ללמוד את הדינמיקה בה ה-latent-state משתנה עם הזמן (זאת בנוסף לאתגרים טכניים אחרים שהן מציבות). אבל יש סט-גדול של טכניקות סטנדרטיות (יותר או פחות) לעשות זאת, והן בהחלט מעשיות.

רשתות מהסוג הזה הן מאד שימושיות, ולא רק עבור נתונים עם מבנה טמפורלי ברור. אפשר להשתמש בהן למשל גם כדי לנתח תמונות ע"י סריקה סדרתית של חלקים מתוכן, או כדי לנתח משפטים בשפות טבעיות ע"י סריקה של סדרת המילים.

באופן כללי, הרשתות הפשוטות והמוכרות ביותר מתנהגות כמו "פונקציה מתמטית": הן מפה בין קלט לפלט. אך ישנן ארכיטקטורות אחרות שאינן כאלה, שהן stateful, ופעולתן אולי דומה יותר להרצה של תכנית מחשב. RNNs למינהן (כפי שהצעת) הן הסוג הנפוץ ביותר של רשתות כאלה, אך יש גם סוגים אחרים.
רשתות נוירונים - AMA 698519
אתה יכול להוסיף או לתת הפניה לשימוש ב RNN ב NLP?
רשתות נוירונים - AMA 698526
זה נושא מיינסטרימי. הבעיה אינו למצוא רפרנס, אלא לברור ביניהם, ולצערי אין לי איזה "רפרנס אולטמטיבי".
תוכל למצוא סקירה טכנית עם הרבה הפניות נוספות בפרק העשירי כאן, וספציפית, בהקשר של NLP, אני מניח שתתעניין בעיקר ב-sequence to sequence models.
רשתות נוירונים - AMA 698528
תודה.
רשתות נוירונים - AMA 698410
רשתות שעובדות על וידאו לא מתייחסות לכל פריים כבלתי תלוי באחרים.

נניח לצורך הפשטות שהקלט הוא רצף של תמונות בשחור לבן (בפועל, במערכת כמו רכב אוטונומי, כנראה שבכל פיקסל יהיה מקודד מידע עשיר בהרבה מסתם בהירות, כמו מידע על צבע ועל עומק, והמערכת לא תתמודד רק עם רצף של פריימים ממצלמה אחת אלא עם פיוז'ן של אותות המגיעים מסנסורים רבים, חלקם מצלמות וחלקם לא).

ונניח גם שנרצה לנתח את הקלט באופן קזואלי (כלומר שהניתוח בכל נקודת זמן יעשה רק על סמך אינפורמציה הזמינה באותה נקודת-זמן או לפניה). זה בד"כ המצב במערכות זמן-אמת (כמו רכב אוטונומי), אך לא במערכות הפועלות אופליין (כמו למשל בניתוח סמנטי של סרטונים המועלים ליוטיוב).

דרך מקובלת אחת לקחת בחשבון את הקונטקסט, היא באמצעות קונבולוציות. במקרה של וידאו מדובר יהיה בקונבולוציות על בלוקים של מרחב-זמן (בניגוד לקונבולציות הפעולות רק במרחב, כמו במקרה של תמונות). זה קצת דומה למה שהצעת (אם אני מבין נכון את כוונתך ב-"השהיית תמונה בין שכבה לשכבה"), אבל זו טכניקה שבפני עצמה היא מאד מוגבלת, מכיוון שהיא מסוגלת לקחת בחשבון רק אינפורמציה מאד לוקלית (דברים שקרו לאחרונה). דרך מקובלת אחרת לקחת בחשבון את הקונטקסט, היא באמצעות RNNs כפי שמתואר בתגובה שכתבתי לשכ"ג, המאפשרות גם לקחת בחשבון אירועים רחוקים יותר בזמן ולהבין באופן הוליסטי יותר הסיטואציה שלפניהן. וכמובן שאפשר (ורצוי, ומקובל) לשלב את שתי הגישות.

לגבי זמני-תגובה: האימון של רשתות מורכבות הוא משימה מאד כבידה מבחינת המשאבים החישוביים והזמן הנדרש. אך השימוש בהן, לאחר האימון, הוא משימה כבדה בסדר-גודל רבים פחות (היא עדיין עשויה להיות יחסית כבדה, תלוי ברשת ובבעיה הסציפית). שיפור הביצועים בהרצת רשתות מאומנות זה מדע בפני-עצמו (למשל באמצעות pruning של חלקים מהרשת, או רדוקציה של הייצוג המספרי של הפרמטרים, או ביזור, או קירוב וכו' וכו'), ואני לא חושב שלגוגל למשל (שבונה את הרכב כולו, ויש לה שליטה מלאה על מערך החיישנים, החומרה והתוכנה) יש בעיה לעמוד בזמני התגובה הנדרשים.
רשתות נוירונים - AMA 698416
הערה צדדית: החלק שהכי מרשים, או מפתיע, אותי הוא שאפשר לקבל את משאבי החישוב הדרושים במחיר סביר. במחשבה נוספת, יותר מרשים מזה הוא שהמוח שלנו עושה משהו דומה עם מעבדים איטיים בהרבה.
רשתות נוירונים - AMA 698417
ובמחשבה שלישית: אבל מספר המעבדים שונה...
רשתות נוירונים - AMA 698427
אתה מדבר על משאבי החישוב בלמידה או ביישום? כי אלה סדרי גודל שונים מאד.
רשתות נוירונים - AMA 698428
לא בטוח שהמוח שלנו עושה משהו דומה.

אלנ"ב (אני לא נוירו-ביולוג), אבל למיטב ידעתי את האנולוגיה בין "רשתות נוירונים" בלמידה-חישובית לבין "רשתות נוירונים" בנוירוביולוגיה צריך לקחת בערבון מאד מוגבל.

אין ספק שישנה הפרייה הדדית בין שני התחומים, אבל בד"כ האנלוגיות נשברות די מהר. למשל, היסטורית אחת המוטיבציות המרכזיות מאחורי פונקציית האקטיבציה הנפוצה ביותר היום (ה-rectifier, כנראה מוכרת יותר בשם ReLU) היא מעבר-הפאזה האמפירי שנצפה בניורונים ביולוגים (כלומר: רק אם סך הפוטנציאלים הקדם-סינפטיים גדול מאיזשהו סף, נוצר פוטנציאל פעולה). זאת לעומת ההתנהגות של פונקציית האקטיבציה שזכתה למירב הפופלריות לפני כן בלמידה עמוקה (ה-hyperbolic tangent הסימטרית). אבל מצד שני, מעבר לסף, הפעולה של ה-rectifier פרופורציונאלית לקלט, בעוד שאצל נוירונים ביולוגיים (בד"כ) היא קבועה. ובכלל, הסיבה המרכזית להצלחה של ה-rectifiers (בניגוד לאקטיבציות אחרות שגם הן א-סימטריות, כמו סתם thresholds או פונקציית ה-softplus) בעליל לא קשורה למוטיבציה ביולוגית כזו או אחרת, אלא היא טכנית לגמרי וקשורה להתנהגות הנחמדה של הנגזרת שלה בהקשר של אלגוריתמי האופטימיזציה הנפוצים (ווריאציות של SGD) ויעילות המימוש שלה. ככל הנראה לסיבה הזו אין שום קשר לביולוגיה.

דוגמאות אחרות (ומעניינות יותר) להפרייה הדדית הן למשל הרעיון של למידה הביאנית שפותח בהקשר של נוירוביולוגיה, והתגלגל לאלגוריתמי הלמידה הראשונים שפותחו לפרספטרונים ואח"כ ללמידה במודלים מבוססי-אנרגיה, או למשל רשתות הופפילד שפותחו כמודל לזיכרון-האנושי, ומהן נגזרו תאוריות מעניינות ואלגוריתמים שימושיים בלמידה-חישובית, או למשל ה-wake-sleep algorithm שנמצא על קו-התפר בין נוירולוגיה-תאורטית, למידה-בייסאנית ולמידה-עמוקה ומצד אחד מהווה תאוריה נוירוביולוגית מעניינת לכך שבעלי-חיים באופן כללי נוטים לישון מידי פעם, ומצד שני משמש כאלגוריתם לאימון משפחה מסויימת של מערכות-לומדות, או למשל הדמיון בין רשתות-קונבולוציה בראייה-ממוחשבת לבין המבנה של ה-visual cortex ההתאוריה הנוירוביולוגית של receptive fields (צפייה מומלצת: ניסוי החתולים של Hubel ו-Wiesel).

אבל למרות כל זאת, ההבדלים בין התחומים עולים בהרבה על הדמיון. כמובן, החומרה מאד שונה. וההתנהגות של מודלים דינמיים של נוירונים ביולוגיים (כמו Hodgkin–Huxley model) שונה מאד מזו של "נוירונים" בלמידה-חישובית, ואפילו המודלים הדינמיים האלה בעצם שונים מאד מהמכניקה הביולוגית (תעלות ומשאבות יונים, מוליכים עצביים, וכל זה). ולמרות שהמוח הוא בברור מערכת מאד אדפטיבית, היא גם מערכת עם התמחויות מאד ספציפיות שחווטו במהלך האבולוציה. לא ממש ברור מה "הדרך הנכונה" למדל בכלל את האופן שבו המוח הוא אדפטיבי (זה כנראה יותר בכיוון המאד כללי של reinforcement learning מאשר supervised learning), ולא ממש ברור איך פועלת מערכת המשוב של האדפטציה הזו. גם אם גרסה כלשהי של backpropagation ו-SGD משחקת תפקיד בלמידה הביולוגית, היא כנראה שונה באופן ניכר מהגרסה המשמשת בלמידה חישובית.

אני חושב שזו אחת הסיבות שאנשים התרחקו מהטרמינולוגיה של "רשתות-נוירונים" והמותג "למידה-עמוקה" התחזק (ומעניין מה יקרה לו אם יתברר בהמשך שהעומק לא משחק תפקיד נורא-חשוב...).
רשתות נוירונים - AMA 698449
עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה אולי נובע מהשימוש בתואר "עמוקה" בשם המותג. זאת פשוט מילה מצוינת, שמשדרת כובד ראש ו... עומק. ע"ע תיאוריית הקונספירציה deep state, וכן deep structure של חומסקי.

אפרופו הסוגריים האחרונים אצלך: נדמה לי ששמעתי פעם שאחד החלוצים של רשתות הנוירונים כתב באחד המאמרים המכוננים של התחום שאי אפשר להשיג שיפור משמעותי ע"י הוספת הרבה שכבות, כל הקהילה פשוט קיבלה את דעתו (הבלתי מנומקת), ולכן לקח הרבה שנים עד שגילו - יחסית לאחרונה - שעומק דווקא מאד עוזר. מוכר לך הסיפור הזה, או שאני משבש/הוזה?
רשתות נוירונים - AMA 698469
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך‏1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים).
באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו.

1 נו, Low hanging fruits
רשתות נוירונים - AMA 698476
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים.
לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר.
רשתות נוירונים - AMA 698479
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר.
רשתות נוירונים - AMA 698480
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה?
אני עוד אחזור! לבד, בחושך. 698481
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם.
רשתות נוירונים - AMA 698514
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון?

אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה.

ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך).

בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-‏2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field.

זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה.

ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...).

יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי.
רשתות נוירונים - AMA 698520
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה
רשתות נוירונים - AMA 698527
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה.

אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech).

(וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs).
רשתות נוירונים - AMA 698529
hmm זה דוגמא ולא העקרון.

שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא.
רשתות נוירונים - AMA 698530
איבדתי אותך.
רשתות נוירונים - AMA 698531
הנה השתלשלות הפתיל כפי שאני רואה אותה.

יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח
פונז: מתפלא עליך, משתמשים בזה כי זה עובד
אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב.
עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן
אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה

ואני מזכיר שיובל כתב: חלק קטן
רשתות נוירונים - AMA 698532
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור.
רשתות נוירונים - AMA 698533
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי.
רשתות נוירונים - AMA 698538
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה.
רשתות נוירונים - AMA 698540
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור.
רשתות נוירונים - AMA 698542
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא.

הנה נימוק ללא דוגמא.

לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect.

[אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.]

מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה.
רשתות נוירונים - AMA 698543
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות.
כבר אז התוצאות נראו נאות.
רשתות נוירונים - AMA 698549
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום.
רשתות נוירונים - AMA 698535
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)?
רשתות נוירונים - AMA 698539
טובים בהרבה. הרבה יותר זכירים ופחות גנרים.

וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע.
רשתות נוירונים - AMA 698510
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד).

באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure".

אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization.
רשתות נוירונים - AMA 698517
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי:

1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו.

2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה).
רשתות נוירונים - AMA 698536
Simulated annealing .

רשתות נוירונים - AMA 698512
זו אולי מסביר את ההצלחה של המותג "למידה עמוקה" (נדמה לי שהשם עלה לראשונה כעשור או שניים לפני שהוא באמת תפס). התחום עצמו לא צריך מטא-הסבר להצלחתו.

יש המון "משפטי-אוניברסליות" מהצורה "כל רשת עם רק 2 שכבות (+אותיות קטנות) יכולה לייצג כל פונקציה", שמהן אפשר בטעות להבין שלא צריך עומק. אבל השאלה של ייצוג (capacity) היא לרוב לא באמת מעניינת, ויכולת-ההכללה היא הנקודה החשובה - וכאן כנראה שלעומק יש תפקיד חשוב. חלק גדול מזה מובן תאורטית ומתמטית, אבל השאלה אם נגיד 10 שכבות הן די והותר, או האם כל-המרבה-הרי-זה-משובח עדיין פתוחה.

הסיבה שרשתות עם יותר מ-‏2-3 שכבות הפכו לפופלריות בשנים האחרונות היא לא כי גילו שעומק עוזר, אלא פשוט כי סופסוף גילו איך אפשר (אלגוריתמית) לאמן כאלה רשתות.
רשתות נוירונים - AMA 698577
הייתי בהרצאה בת יומיים וחצי של מומחית לסטטיסטיקה וללמידה חישובית, שמחלקת את זמנה וגם את הרצאתה בין שני התחומים, ולפחות כמרצה היא תותחית-על. אחת ההבחנות שלה היתה שאלו שני תחומים דומים, וההבדל העיקרי הוא שסטטיסטיקאים קוראים לדברים בשמות משמעממים/שמרניים ואילו אנשי הל"ח קוראים לדברים בשמות מגניבים/יומרניים.

פונז - זה שקראו לזה בהתחלה "רשתות נוירונים קונבולוציוניות מרובות שכבות" הוא אולי דוגמה נגדית. אבל אולי דוגמה מחזקת? עובדה ש"הגניבו" את השם...
מדבר מה(סופר)פוזיציה 698578
זו קצת שאלת ביצה ותרנגולת, כי אולי השם "הוגנב" רק אחרי שהטרנד התפשט ממעבדות המומחים כמו אש בשדה קוצים?
ואז, מרגע שהיה צורך במאמרים פופולריים יותר במדיה הציבורית שמתארים את התופעה החדשה, הומצאו מושגים קליטים יותר שיתאימו לתיאור הזה?

רוצה לומר, "החתול של שרדינגר" הומצא יותר מעשור אחרי שהפיזיקאים כבר טחנו משוואות דיפרנציאליות של גלים ומטריצות הרמיטיות של אופרטורים שהצליחו לתאר את העולם בצורה חדשה ונפלאה מבלי להידרש למטאפורות מגניבות על חיות מחמד נפוצות.
רשתות נוירונים - AMA 698851
נכון מאד. טרבור הייסטי מאונ' סטנפורד, אחד האלילים של הלמידה הסטטיסטית‏1, נתן הרצאת keynote בכנס של האיגוד הישראלי לסטטיסטיקה לפני שנתיים. הוא אמר שם שהרבה מאד מהרעיונות החדשים לכאורה, שהופצו ע"י מדעני למידה עם שורשים במדעי המחשב, הם בעצם רעיונות ידועים היטב בסטטיסטיקה כבר משנות השמונים והתשעים, והוא מתפלא שרק בשנים האחרונות התפוצץ כל ההייפ הזה.

מותר לשאול מה שמה של המומחית?
____________________
1. בין השאר, אחד ממחברי the Elements of Statistical Learning.
רשתות נוירונים - AMA 698861
קאסי קוזירקוב.
רשתות נוירונים - AMA 699747
יש לה בלוג חדש, עם פוסט יחיד בינתיים שהוא הסבר קצרצר להדיוטות על מה זה למידת מכונה.
רשתות נוירונים - AMA 699748
כשנתקלתי באחת הכותרות שלה בהסבר ללמידת מכונה: Explain with examples, not instructions, נזכרתי במשהו שרציתי לכתוב כאן מזמן בקשר לויכוחים ארוכים בנושא אחר לגמרי - "מהי אמנות".
מהלך אופייני בויכוח כזה הוא שלבסוף מתכנסים לאמירה שמאחר ואתה לא יכול *להגדיר* מהי אמנות, כל ויכוח לגבי האם תערוכה או מוצג כזה או אחר הם 'אמנות' נידון לכשלון בגלל שאנחנו לא מצליחים לנסח הגדרה מדויקת מספיק למהי אמנות.
באה למידת המכונה ומבהירה לנו שהדרישה להגדרה (=תיאור מילולי קצר=תיאור אלגוריתם לסיווג אמנות/לא אמנות=instructions בציטוט לעיל) היא ארכאית בערך כמו הדרישה לקרוא 'דואר' רק למשהו שיש עליו בול ודבק או הדרישה להגדיר 'טלפון' כמשהו שיש לו חוט שקשור לקיר.
אומרת למידת המכונה - סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן, וממשיכה ומלמדת אותנו ה'למידה העמוקה' שסיווג כזה הוא הרבה יותר מדויק ומוצלח מהישן.
לך לרשת הנוירונים העמוקה המובילה היום בסיווג תמונות ל'כלב' ו'חתול' ותשאל אותה על תמונה מסוימת 'למה החלטת שזה חתול' - שזה מקביל אולי לשאלה 'לאיזה "הגדרות" של חתול היא מתאימה' - והיא תצחק לך בפנים, תכנת פורטרן מהאייטיז שכמוך, ואם תתעקש תענה לך בטבלה ארוכה ומפורטת של עשרות מיליוני המשקלות ברשת שהם אלה שמחליטים שזה חתול.

אז לסיכום, אם לא הובנתי עד כה, מה שלמדנו מלמידת מכונה זה שקיום 'הגדרה' למושג כלשהוא איננו תנאי הכרחי לסיווג לגיטימי ובר סמכא של אותו מושג, ושהמשפט הנושן לגבי פורנוגרפיה, ואולי גם אמנות - אני לא יודע להגדיר לך את זה, אבל כשאראה את זה אדע - לא מראה על מגבלת הידיעה שלנו, אלא להיפך, על התוקף הלגיטימי והמוצק של ידיעה שמבוססת על דוגמאות אינספור.
יש לך ספק אם יצירה מסוימת היא אמנות? תראה לי אותה ובוא נתווכח, ואל תתחמק בטיעונים פילוסופיים של חוסר הגדרות. אלא אם בא לך לכתוב פורטרן על מיין פריים, סטייה לגיטימית אבל ארכאית למדי.
רשתות נוירונים - AMA 699749
יפה. אתה יכול להשתמש בזה כדי לשים בצד את חיפוש ההגדרה לאמנות כשהוא לצורך הבנת אידיאת האמנות, או כדי להסביר למה החתונה בכנא היא אמנות. אבל במקומות כמו "האייל" מחפשים הגדרה לאמנות יותר מכל כדי לנסות לשכנע שברודווי בוגי ווגי הוא כן או לא אמנות, כשהסיבה לויכוח היא שזו יצירה על אזור הגבול של התיחום הקונצנזואלי. אני חושב מזמן שהשאלות מהסוג הזה לרוב לא מעניינות, ושניסיון לענות עליהן לפי הגדרה הוא סרק, אבל לא ברור לי שרשתות עצביות הן טיעון חזק בעניין.
רשתות נוירונים - AMA 699760
אם אתה כבר מניח ש''ניסיון לענות עליהן לפי הגדרה הוא סרק'', אז אכן הטיעון שלי לא מוסיף לך הרבה.
למי שעדיין חושב שסיווג על פי הגדרה הוא קריטריון חשוב ומעלה את הטיעון הזה בויכוח, אותו הטיעון שלי אמור ללמד שכדאי שיחשוב שנית.
רשתות נוירונים - AMA 699750
>> סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן

אבל שורש הבעיה הוא שיש דוגמאות שהסיווג שלהן שנוי במחלוקת, לא? יש מי שחושב שמשתנה היא אמנות, ויש מי שלא, אז איך תסווג (בשלב האימון) משתנה?
מה משתנה הלילה הזה 699761
שים לב שהטיעון העיקרי שלי הוא לא שיש לי פתרון לשאלת "האם משתנה היא אמנות", אלא שמי שטוען שאי אפשר לדון בשאלה הזאת לפני שהגדרנו "אמנות" טועה.

ספציפית לגבי השאלה שלך, אולי בכלל מה שראוי לשאול הוא - בהינתן לימוד על היסטוריה ענפה (בטרם משתנה), מה תאמר הרשת על משתנה.
ויטענו אנשי ה-AI הקשה: אבל זה בדיוק הניסוי שעשינו, נתנו לאלפי רשתות כאלה (משוכנות היטב במוחות אנושיים) שלמדו על דוגמאות עד כה, את הדוגמית החדשה - משתנה - ושאלנו אותן האם זו אמנות. חלק טענו שכן, וחלק שלא.
אולי טענת משנה חלשה יותר שעולה מהטיעון שלי, היא שטיעונים כמו "מאחר שהדוגמית החדש דומה למוצג שראיתי לפני שנתיים כאן ואכן, ולזה שראיתי לפני 4 שנים כאן וכאן וגו', ולכן גם זו אמנות" הם תקפים ומשמעותיים יותר מאשר "לפי מילון שטיינוביץ'-ולדיסימוביץ' לאומנות פלסטית לדורותיה, המשתנה עומדת בקריטריונים 2.א ו-‏4.ב.(3), ולכן מקומה אומנותה".
מה משתנה הלילה הזה 699841
אז אני מצטרף לטיעון של "אנשי ה-AI הקשה".
מה משתנה הלילה הזה 699847
ואני חוזר לטענה העיקרית שלי, מסכים שטענת המשנה לא מכריעה את השאלה.
מה משתנה הלילה הזה 699852
מסכים איתך שרשתות נוירונים יצרו דרך שמאפשרת (עקרונית) להכריע האם אובייקט מסוים הוא אמנות או לא, בלי לנסח הגדרה מדויקת ל''מה זה אמנות''. אני רק אומר שהדרך החדשה הזו לא שווה הרבה בעיניי במקרי הקצה, נוסח המשתנה של דושאן, שעליהם בני האדם ממשיכים להתווכח.
מה משתנה הלילה הזה 699856
אני מסכים שהדרך החדשה לא פותרת את בעיית הסיווג, היא רק ''פותרת'' או מורידה מהשולחן טיעון מקובל בקשר לבעייה, שמסיט את הדיון (הראוי לטעמי) במקרי הקצה להתפלספויות לא רלבנטיות.
מה משתנה הלילה הזה 699874
אין לי דרך להראות את זה אבל ההרגשה שלי שמי שעדיין מתווכח על המשתנה של דושאן זה בעיקר הקישונים של העולם, השוליים הנוקשים. והקישונים הם בעצם מהמילייה האומנותי.
רשתות נוירונים - AMA 698856
בצעתי חיפוש באתר ונראה לי שאת האנקדוטה הזאת עדיין לא ספרתי‏1, ולכן אספר אותה עכשיו. זה היה בשנות ה 60. קבוצה של סטודנטים נחה על הדשא באוניברסיטה העברית בירושלים. סטודנטית התקרבה לקבוצה ופנתה אליהם: אתם לומדים במקרה סטטיסטיקה? אחד הסטודנטים (לימים פרופסור עוזי סמילנסקי) השיב: אנחנו בכוונה לא לומדים סטטיסטיקה. (אני מקווה וגם בטוח שאיש לא נעלב.)

1 כיוון שמלאי האנקדוטות שאני זוכר בוודאי אינו אין סופי, כל פעם שאני עומד לספר אחת מהן אני בודק אם לא ספרתי אותה כבר, כי מאד סביר שכן.
רשתות נוירונים - AMA 698404
אתה יכול להסביר קצת יותר בעניין ה-xor? מהן אותן "רשתות של נוירונים לינארים" ומה הבדל ביניהן לבין הרשתות המודרניות?

(זכור לי שבשעתי גם אני התאכזבתי מאד כשקראתי איפשהו על המגבלה ההיא).
רשתות נוירונים - AMA 698411
(זה באמת נושא *הרבה* יותר פשוט מהרושם שההסבר המסורבל שלי כאן עשוי ליצור...)

פונקציית ה-xor היא פונקציה בוליאנית פשוטה שאת טבלת-האמת שלה אפשר לראות כאן XOR_gate [Wikipedia]. נגיד שרוצים ללמוד אותה: הקלט יהיה טבלת האמת שמופיעה בערך (בסה"כ 4 דגימות), ואחרי האימון - אם הוא נעשה בהצלחה - תוכל להציג לרשת זוג של ערכים בוליאנים, היא תחזיר את התוצאה של הפעלת xor עליהם (למשל עבור הקלט (0,0) היא תחזיר 0, ועבור הקלט (0,1) היא תחזיר 1).

אפשר לחשוב על הבעיה כבעיית קלאסיפיקציה, בה על הרשת להתאים לזוג-סדור של ערכים בוליאניים את התווית "0" או את התווית "1". מודל קלאסיפקציה לינארי, הוא כזה שינסה לפתור את הבעיה על ידי מציאת "מישור מפריד" במרחב הקלט שמצד אחד שלו מצויים כל הקלטים להם מתאימה התווית "0" ומצידו אחר מצויים כל הקלטים להם מתאימה התווית "1". פונקציות בוליאניות כמו and או or אפשר ללמוד באופן הזה, אבל את הפונקציה xor אי אפשר (המחשה).

"מסתבר" שאם מרכיבים הרבה מודלים לינארים קטנים (לא משנה כמה מהם, ולא משנה איך מרכיבים אותם) - התוצאה המתקבלת היא מודל לינארי. לכן רשתות מסובכות וגדולות כרצונך המורכבות אך ורק מ-"נוירונים לינאריים" לעולם לא תוכלנה ללמוד פונקציה פשוטה כמו xor.

הנושא והמציאות ההיסטורית קצת מורכבים יותר: פרספטרונים - גם בשנות השישים - הם לא "נוירונים לינארים", למרות שבפני עצמם הם כן "מודלים לינארים". אז רשת של פרספטרונים בעלת-שכבה אחת לא יכולה ללמוד את פונקציית xor, אבל רשת בעלת שתי שכבות של פרספטרונים כן יכולה - ולמעשה יש "משפט אוניברסליות" שאומר שרשת כזו יכולה ללמוד כל פונקציה סבירה.
רשתות נוירונים - AMA 698415
שוב, תודה רבה.
Deep Dream 701713
אני מנצלת את הדיון לשאלה לגבי Deep Dream, אפשר? Deep Dream היא התוכנה של גוגל שהופכת תמונות לציורים סוריאליסטים עם פרצופי כלבים שצצים בכל מקום. התוכנה הזאת מבוססת על Deep Learning שבבסיס הלמידה שלה היה מאגר גדול של תמונות כלבים ולכן היא רואה כלבים בכל דבר. אבל המושג של Deep Learning איך נראה כלב שונה מאד מהמושג שלנו, וכשמדפיסים תמונות של הפיקסלים של המשקלות שהביאו אותה להחלטה שזה כלב, בתמונות האלה אין שום דבר שמזכיר לנו כלב. איך Deep Dream יודעת לצייר כלב שגם אנחנו מזהים?
Deep Dream 701719
מאד בגדול:
ככל הנראה יש כאן שימוש ברשתות נוירונים שנקראות GAN - Generative adversarial network.
רשת שכזו היא מעין מנגנון "מתחרה" לרשת נוירונים קלאסית - הרשת הקלאסית מאומנת לסווג תמונות ('כלב', 'חתול,' או 'כרוב'), ורשת ה-GAN מאומנת ביצירת תמונות. עכשיו, עושים ביניהן סוג של אימון הדדי, כשהרשת היוצרת מייצרת תמונה, הרשת המסווגת נותנת לה ציון ('כמה קרובה התמונה שיוצרה לתמונת כלב'), ולאור הציונים הרשת יוצרת התמונות מתעדכנת ולומדת שוב ושוב, עד שהיא מייצרת תמונה שציון ה'כלביות' שלה מספיק.
שלא במפתיע, מאחר והרשת המסווגת למדה לסווג על פי תמונות אמיתיות של כלבים‏1, אכן התמונות שנוצרות בסוף תהליך הלימוד-יצירת תמונה-סיווג-לימודיצירת תמונה-סיווג-... מכילות תמונות או תתי תמונות שמאד דומים לכלבים.

רק כדיסכליימר - אכן יש ענף כיום שמשתמש באותן רשתות GAN, כדי "לרמות" את הרשת המסווגת - ז"א ליצור תמונות ש*לא* מכילות כלבים, אבל יזוהו ככלבים, או ליצור תמונות של כלבים שיזוהו כדובי פנדה וכדומה.

1 נשאיר רגע בצד הטכני את הדיון ב"המושג של Deep Learning איך נראה כלב שונה מאד מהמושג שלנו" - אחרי שהרשת למדה, היא ממש טובה בזיהוי כלבים‏2.
Deep Dream 701736
הגיוני שיש שם משהו שיודע לצייר. מצד שני ראיתי עכשיו עוד תמונות מתוך השכבות והן הרבה יותר טובות ממה שראיתי קודם ואפשר להבין מה רואים, אז ההנחה שלי לא הייתה כל כך נכונה. יכול להיות שנכנסים לאחת השכבות הקודמות, וכל עצם שהיא זיהתה אומרים לה ''נכון, לכי על זה''.
רשתות נוירונים - AMA 702458
סיפור קצר, משעשע ומטריד, בהקשר לסכנות הכרוכות בבינה-מלאכותית: Sort by Controversial.
רשתות נוירונים - AMA 702462
סכנות מרשת נוירונים? בינתיים דברים כאלו נעשים בצורה ידנית ויעילה מספיק. המחשבים כאן הם לא מה שמדאיג אותי. מהבחינה הזו הסיפור לא נשמע אמין.
רשתות נוירונים - AMA 702477
לא מספיק קצר, משעשע בתחילתו, ואז מורח את הרעיון הרבה יותר מדי.
הוא כן סיפק לי לפחות הפתעה לא שגרתית - לראות את 'מנה מנה, תקל ופרסין' באמצע סיפור באנגלית היה מאד לא צפוי.
רשתות נוירונים - AMA 702546
אני הופתעתי לגלות את הביטוי באמצע שיר בגרמנית.
(דלגו ל-‏3:30 אם אין לכם סבלנות לחפירה הצלילית - לא מהמעניינות ביצירות הלהקה. הנה המילים הקצרות, עם תרגום לאנגלית, למי שרוצה לנסות לפרשן מה קשורה הכתובת על הקיר. אני לא מבין.)
''אתם מוזמנים לשאול אותי'' 708414
כמעט 100 מיליארד דולרים הושקעו עד כה בפיתוח מכונית אוטונומית, ואפשר לשער שעד לפיתוח מכונית עצמאית ממש (מה שנקרא שלב 5) הסכום יוכפל פי כמה וכמה (שאלה ראשונה: פי כמה, להערכתך? ומה הניחוש לך ללו"ז?‏1). הסכום הזה לא מאד מפתיע אותי כי הבנתי שמדובר על בעיה קשה באמת (ותודה ללקס פרידמן על הפודקסטים).

בעיה שנראית להדיוט כמוני פשוטה מזאת בסדרי גודל היא ויסות דינמי‏2 של רשתות הרמזורים באזורים עירוניים. אני יודע שכמה חברות מתעניינות בנושא, וכבר ב 2014 טענו באונ. טורונטו שהבעיה פתורה מה שמשאיר אותי תמה למה היישום לא נראה בשטח. כך, לדוגמא, בעקבות google maps ובעיקר מאז רכישת waze יש לגוגל מאגר מידע עצום עבור שלב האימון של המערכת, ונראה שהם היו יכולים במאמץ יחסית קטן לייצר משהו בעל ערך גבוה לציבור, וערך מוסף עצום לגביהם כאשר המכוניות האוטומטיות שלהם תגענה לכבישים עם קצת ידע פנימי על ההתנהגות הצפויה של הרמזורים. ואם לא גוגל, ודאי שמחלקות ה-AI באוניברסיטאות וגופי מחקר יכולות לרכוש הרבה יוקרה - וחשוב יותר: ומענקים - אם יקלו במשהו על העומס הבלתי נסבל של התנועה העירונית. אמנם בניגוד לגוגל אין להם נתוני אמת, אבל נראה לי שזה תחום בו סימולציות יכולות להפיק את הנתונים באמינות גבוהה מאחר שיש הרבה פחות גורמים לא צפויים מאשר במכונית האוטונומית, כך שחלק גדול מתקציב הפיתוח - איסוף הנתונים לאימון, נחסך. שאלה שניה: אני צודק?

אני מבין שההשקעה הציבורית הנדרשת כדי לחבר את כל הרמזורים לרשת אינה קטנה, אבל גם חיבור של חלק מהרמזורים יכול לעזור כך שהיישום יכול להיעשות בהדרגה, כשהמערכת היא זאת שממליצה על סדר חיבור הרמזורים (ברור שיש כאלה שמשפיעים יותר על נפח התנועה הכללי). מאחר וכל המחשבות האלה אינן באות לידי ביטוי במה שאני רואה סביבי - ויש לי הרבה זמן להסתכל סביב כשאני תקוע בפקק - השאלה השלישית שלי היא איפה אני טועה כלומר, איפה מסתתרים הקשיים.

השאלה הרביעית שלי קשורה רק בעקיפין: מאיפה מגיעה החוצפה של נתיבי איילון להפיק את תשדירי הפרסומת שלהם לגבי העתיד, עם המסלולים המתחלפים, החניונים מחוץ לערים ונת"צ שאו-טו-טו יהפכו את חייה של נתי קלוגר לטובים יותר, בשעה שבעבר ובהווה הם לא מצליחים אפילו לתחזק את התמרורים המוארים שלהם? יש גם שאלה חמישית: איך זה שהפרסומאים עוד לא הבינו שחוכמות מאולצות כמו "אתה הבנת, יציאה.. איילון..." הופכות להיות מעיקות ממש בפעם השבע מאות שאתה נתקל בהן, כשכל מה שרצית הוא לראות את פתיחת החדשות, אבל דומני שהטרדתי אתכם מספיק לפעם אחת.

למותר לציין שהשאלות אינן מופנות דווקא לעומר...
______________
1- אולי אפשר להציע למערכת שאחד הסקרים הבאים יהיה ניחוש של התאריך, ובעוד X שנים יוכרז הזוכה.
2- אני לא רוצה להאריך, אבל "דינמי" יכול להיות דינמי ממש בין אם מדובר בגוגל, כי הם מקבלים בזמן אמת נתונים מוויז ובין אם מדובר במצלמות שיפוזרו בצמתים מסויימים, או "חצי דינמי" בהתאם לשעות היממה, רחובות חסומים, הפגנות וצרות דומות. מי יודע, אולי יתגלה אפילו שחסימה של איזה כביש יכולה להביא תועלת (ע"ע תגובה 428114)?
''אתם מוזמנים לשאול אותי'' 708422
רק לגבי אחת מהשאלות שלך - פתרונות רשתיים לניהול תעבורה עירונית (לרבות מה שקורה במימד השלישי של רחפני המשלוחים המתרבים) סובלים משתי בעיות עיקריות: הגנת סייבר ומקרי קצה של בטיחות תעבורה (בפרט לכאלה שאינם חלק מהמערכת או "קואופרטיביים").
''אתם מוזמנים לשאול אותי'' 708446
חשבתי שכבר היום יש פיקוח רשתי על פעילות הרמזורים אלא שהוא מתבצע ידנית וההתערבות היא ארוע נדיר. יש קושי אינהרנטי בהקמת VPN או איזשהו קשר מאובטח אחר שיקשר רמזורים עם המרכז?

לא הבנתי את העניין של הבטיחות במקרי קצה. בכל מקרה הרמזורים צריכים להיות מסוגלים לקבל פקודה שתחזיר אותם לעבודה במצב ברירת המחדל שלהם - כלומר לעשות מה שהם עושים היום - אם מתעוררת בעיה רצינית.
''אתם מוזמנים לשאול אותי'' 708425
אני לא מבין ב AI אבל מבין בסכומים.
אף עסק אמריקאי לא ישקיע מיליארדים במשהו שייתן פירות בעוד חמישים שנה. אפילו לא אילון מאסק.
לכן לפי האינדיקציה הכספית יש להם וודאות גבוהה שהמכונית האוטונומית כבר תישא פרי בעוד 15 שנה לכל היותר, וסביר מאוד שפחות.
כיוון שנראה לי שמכוניות אוטונומיות יתפקדו בצורה הטובה ביותר כאשר כל שאר המכוניות בכביש הן אוטונומיות, אני מהמר שבעוד 20-25 שנה כבר יהיה לפחות מטרופולין אחד בעולם שכניסת מכוניות נהוגות בידי אדם אליו תאסר‏1.

_____________
1 תגובה 708081 ההימור שלי הוא על סינגפור
''אתם מוזמנים לשאול אותי'' 708428
נראה שאילון מאסק מתקשה גם לצפות שנה קדימה. בדיוק לפני שנה הוא צייץ שהוא שוקל להפול את טסלה לחברה פרטית בשווי $420 מליון, ויש לו מימון בטוח.
''אתם מוזמנים לשאול אותי'' 708433
כשאמרתי אילון מאסק התכוונתי לחזון המאדים שלו.
אגב- ההתיחסות שלך לכשלון לא נכונה.
הכשלון הוא חלק משמעותי ובלתי נפרד מהנסיון להצליח. סטיב ג'ובס לא נכשל? הוא נכשל בענק! אבל בסופו של דבר הוא עשה מהפכה במוצרי האלקטרוניקה הניידים.
''אתם מוזמנים לשאול אותי'' 708623
לא $420 מליון, אלא $420 למניה.
''אתם מוזמנים לשאול אותי'' 708492
אני מסכים ש''אף עסק לא ישקיע מיליארדים במשהו שייתן פירות בעוד חמישים שנה'' אבל בניגוד לפוליטיקאים עסקים עלולים לטעות.
''אתם מוזמנים לשאול אותי'' 708488
"אולי אפשר להציע למערכת שאחד הסקרים הבאים יהיה ניחוש של התאריך [של פיתוח מכונית עצמאית ממש], ובעוד X שנים יוכרז הזוכה"

רק שנצטרך סקר מקדים על מה ייחשב בדיוק למאורע המכונן. מצד אחד, בכמה מקומות בעולם כבר נוסעות על כבישים רגילים כמה מכוניות אוטונומיות לחלוטין, דה פקטו, כך שלא מופרך לומר שזה כבר קרה. מצד שני, נשמע לי סביר שעוד 15 שנה עדיין תהיה איזו מדינה מתוקנת בעולם שתדרוש נהג אנושי לפחות כגיבוי, וזה ייחשב מיושן אבל לא לחלוטין בלתי-מובן, ובמצב כזה לא יהיה מופרך לומר שזה עדיין לא קרה.
''אתם מוזמנים לשאול אותי'' 708490
מקורותי המקורבים לתחום הרבה יותר פסימיים ממך. על פיהם, לא סביר שתוך 15 שנה תהיה אפילו מדינה מתוקנת אחת שבה רכב אוטונומי יהיה הנורמה.
''אתם מוזמנים לשאול אותי'' 708491
זה לא נראה לי קושי של ממש.

המערכת יכולה להחליט מה יהיה הסף המכריע, למשל: מכירת המכונית המיליון בעולם המערבי שמותר לה לנסוע בכל דרך סלולה ללא נהג בעל רישיון (אני מניח שהנתון הזה יתפרסם ברבים עם הרבה רעש וצלצולים) או משהו דומה. אגב, יהיה נחמד אם נגיע למצב בו לילד מתחת לגיל 14 מותר לנסוע במכונית לבדו, אבל כשהוא מגיע הביתה הוא צריך לחכות למבוגר אחראי שיסיע אותו במעלית!
''אתם מוזמנים לשאול אותי'' 708493
מאיזה גיל סומכים על ילד שייסע באוטובוס לבד?
''אתם מוזמנים לשאול אותי'' 708494
באוטובוס יש תמיד לפחות מבוגר אחד (ליד ההגה) כך שאין הגבלת גיל אמיתית לנוסעים (זאת המסקנה שלי מהסעיף: "ילדים עד גיל 5 פטורים מתשלום עבור נסיעה באוטובוסים, *כאשר הם נוסעים בליווי נוסע בעל כרטיס נסיעה תקף*".
''אתם מוזמנים לשאול אותי'' 708496
"אגב, יהיה נחמד אם נגיע למצב בו לילד מתחת לגיל 14 מותר לנסוע במכונית לבדו", אולי אם נהיה באוטופיה כזו שהאפשטיינים שרוצים להשביח את הגזע האנושי לא יעסיקו האקרים.
תגובה מהירה 708781
הפיקסלים ששלחתי בקושי הספיקו להתייבש, וכבר אני קורא שהרעיון קרוב למימוש.
תגובה מהירה מאד 711030
ובעניין דומה : קראתי בידיעות של סוף השבוע תיאור של עבודת המפעילים של כיפת ברזל (ההדגשות שלי):

- - - ציטוט - - -
... המכ"מ מזהה את המטרה מרגע השיגור שלה. צוות המנ"י, מרכז ניהול יירוט, מתחיל בתהליך הערכת מצב. הם יושבים בקרון קפוא עם מזגנים מעל הראש, לבושים במעילים וכובעי גרב מחממים, מול מסכים עם מטרות מרצדות שנעות מכיוון עזה לעברנו, ויש להם שניות ספורות לקבל החלטה מה לעזאזל לעשות. כל שיגור והמאפיינים שלו. למשל, כמות המטרות, כלומר הטילים ששוגרו לעבר ישראל. האם הם נעים לשטחים מיושבים או מתקנים חיוניים? מה תצורת המעוף הבליסטי? המחשבים מספקים נתונים והם נקראים במהירות. בסוף, מפקד המנ"י מחליט אלו מטרות ליירט. כל מטרה והמספור שהמחשב נתן לה. "מטרות 6 ו־2 נדרשות ליירוט", הוא אומר בקול שקט, והחייל המיירט שם את העכבר על המטרה, לוחץ קליק ימני, בוחר באופציית היירוט ולוחץ קליק שמאלי. טיל היירוט משוגר מאחד ממשגרי הסוללה הפרוסים בשטח, הרחק מכאן, ומכאן והלאה אפשר רק להחזיק אצבעות. "עד עכשיו, רביעי בערב", אומר סרן בן־עזרי, "היו לנו 18 יירוטים, שזה 94 אחוז מסך המטרות שנדרשנו ליירט. עשינו את זה עם 32 מיירטים".

"הסיפוק עצום", הוא אומר, "כי כל אחד מבין מה המשימה ומה המשמעות של חדירת טיל. וכשזה קורה, כשיש החטאה, זליגה, נפילה ויש נפגעים, זה מתסכל מאוד. אבל אסור לנו להתבלבל. אנחנו יושבים דרוכים מול המסכים בקרון, לא מורידים מהם את המבט לרגע, כל שנייה שאיבדת שם במעקב אחר המטרה היא שנייה שלא תחזור. משמרות סביב השעון, בלילה, לפנות בוקר, וגם כשיש פספוס אסור לנו להיות מושפעים. אנחנו נדרשים להמשיך, לא לעצור, כי שם המשחק הוא דריכות, חדות ומיומנות. שלוש־ארבע שעות כל משמרת וכל הזמן הזה עיניים על המסך. זמני התגובה הם של שניות בודדות, כך שצריך רמת ריכוז גבוהה מאוד. תבין, זו מערכת מעולה, משוכללת, חכמה, אבל היא לא פועלת על אוטומט. אתה לא יכול ללחוץ על 'הפעל' וללכת לישון. היא בנויה על שיקול דעת אנושי. האנשים פה הם אלו שעושים את ההבדל"...
- - - סוף ציטוט - - -

וחשבתי על האנכרוניזם המשווע: בימים בהם deepmind מנצחת את טובי השחקנים ב starcraft ii, המשחק "צינורות נפץ מעופפים" שפשוט ממנו בכמה וכמה סדרי גודל‏1 עדיין משוחק בידי תרכובות פחמן על שלל הבעיות החישוביות המוכרות שלהן, וזאת למרות שמחיר ההפעלה במונחי כ"א איכותי הוא גבוה, והטעויות עלולות לעלות בחיי אדם. AI יכול להיות יעיל לא רק בקשר לקבלת ההחלטות בסוללה אחת, אלא גם בקשר לתיאום וחלוקת האחריות בין כמה סוללות ואפילו בין מערכות יירוט שונות כמו בין כיפת ברזל לשרביט קסמים.

סיבות אפשריות שעולות על דעתי:

* הבעיה הפסיכולוגית: לפי מדגם קטן מאד‏2 יש לאנשים רתיעה כמעט אוטומטית מהרעיון גם אחרי שאני מזכיר שחמט, גו, פוקר וסטארקראפט, וזה עוד לפני שחושבים על השאלה איך להסביר לציבור שהטיל שמחק גן ילדים שלם לא יורט מסיבות שקשה להבין אותן. נראה לי שגם אם הסטטיסטיקה תוכיח ששיעור היירוטים המוצלחים עלה מ-‏90% ל-‏95% או אפילו ל-‏98% זה לא יעזור, ומי שמודע להתנגדות הציבורית לתחנות כוח גרעיניות בטח מבין למה אני חושב כך. משום מה שטויות בנוסח המקובל לפיהן "כל מי שנהרג, נהרג במאה אחוז" מתקבלות טוב ע"י ציבור רחב, להפתעתי כולל אנשים משכילים.

* הבעיה האתית: העברת האחריות להגנה על חיי אדם למערכת AI, ובייחוד לכזאת ששיקוליה לא תמיד ברורים, היא מהפכה שזקוקה לבחינה מעמיקה למבחינה אתית, וקשה לדעת אם אסא יגיד כשר.

* היסטורית-מדינית: מהסיבה הקודמת ישראל לא רוצה להירשם בספרי ההיסטוריה בתור הראשונה שהעבירה את האחריות להגנה על חיי תושביה ל-AI, או כמי שהיתה הראשונה שהשתמשה ב-AI לקבלת החלטות צבאיות מבצעיות, גם אם לצרכים הגנתיים לחלוטין.

* סיבה טכנית: אין מספיק נתונים בשביל מאגר טוב לאימון המערכת, וגם צה"ל, כמו משרד התחבורה, לא מאמין בסימולציות (מהעיניים האלה אולי הסבב האחרון לא נבע מהעלבון האישי של מר נתניהו על הירי לעברו באסיפת פעילי הליכוד באשדוד, אלא הוא יועד לצרכי איסוף מידע עבור קובץ האימון. הבעיה היא שכמה מאות טילים עלובים לא ממש יעשו את העבודה, כך שכנראה החמאס טרף את הקלפים כשנמנע מלתרום כמות נתונים משמעותית יותר. מניאקים).

אלה הסיבות שעולות בדעתי, אך הן לא לגמרי משכנעות אותי, כך שכנראה יש סיבות טובות יותר. קדימה, נא האירו את עיני.

בפרק הבא: פרוייקט "מחט בערימת שחת": איך AI יכולה לזהות אתרי שיגור טילים ע"י סריקות תצ"א (ואגב כך פותחת פרק מלהיב במירוץ נגד הטעיות מכוונות - אלא שכאן התגובה אינה צריכה להיות מיידית, כך שהמערכת תסתפק בהמלצות לבחינה נוספת ע"י עין אנושית, אולי אחרי צילום ברזולוציה מקסימלית של הנקודות המסומנות כחשודות ע"י התוכנה). זאת בעיה אקוטית לעתיד הנראה לעין, וההישג כביכול בסבב האחרון בחיסול כמה חוליות שיגור לא משנה שום דבר מהותי. הוא (כמעט?) לא השפיע על השיגורים, ובכל מקרה אפשר לצפות שעד הסבב הבא גם הג'יהאד יגלה את המחיר הזול של טיימר בעלי אקספרס; החמאס והחיזבאללה כבר יודעים זאת - פחות מ-‏3 דולר מחיר קמעונאי. אחרי הפרויקט הזה יגיע גם פרוייקט "תצפיתניות - למטבח!" שהוא בעל סיכויי יישום גבוהים מכל השאר בגלל תמיכה גורפת של הרבנים ממכינת עלי.
ֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹ_______________
1- שיחקתי משהו מאד דומה באטארי באמצע שנות השמונים. על ההישגים שלי אומר רק שלמזלם של תושבי העוטף אני לא אחד מאלה שצריכים ללחוץ על העכבר.
2- ההודעה הזאת היא במידה רבה ניסיון להגדלת המדגם.
תגובה מהירה מאד 711031
אני מאד מופתע שההחלטה איזה טיל ליירט נקבעת ידנית/אנושית.
נראה לי שזה קצת פרמטר נגזר של אופי הבעייה - לו היתה מערכת שמיירטת מרגמות/קסאמים בעוטף עזה (שזמן ההתרעה שלהם פחות מעשר שניות למיטב הבנתי), היה ברור מראש שאלו זמני החלטה קצרים מדי עבור מחליט אנושי, ואז היו מוציאים אותו מהלופ. דוקא בגלל שיש מספיק זמן 'ספייר' לבזבז, נותנים למפעיל האנושי אכן לבזבז אותו.
  תגובה מהירה מאד • אריק • 2 תגובות בפתיל
  תגובה מהירה מאד • ירדן ניר-בוכבינדר • 216 תגובות בפתיל
  תגובה מהירה מאד • אח של אייל • 5 תגובות בפתיל
  תגובה מהירה מאד • צפריר כהן
  תגובה מהירה מאד • שוטה הכפר הגלובלי • 6 תגובות בפתיל
  תגובה מהירה מאד • שוטה הכפר הגלובלי
  תגובה מהירה מאד • הפונז
  תגובה מהירה מאד • הפונז
  תגובה מהירה מאד • ירדן ניר-בוכבינדר
  תגובה מהירה מאד • הפונז
  תגובה מהירה מאד • ירדן ניר-בוכבינדר
  תגובה מהירה מאד • הפונז
  תגובה מהירה מאד • ירדן ניר-בוכבינדר
  תגובה מהירה מאד • הפונז
  תגובה מהירה מאד • ירדן ניר-בוכבינדר
  תגובה מהירה מאד • שוטה הכפר הגלובלי • 4 תגובות בפתיל
  ויוה לאס וגאס! • שוטה הכפר הגלובלי
  ''אתם מוזמנים לשאול אותי'' • שוטה הכפר הגלובלי

חזרה לעמוד הראשי

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים