|
||||
|
||||
הדיון כאן מלא באי-דיוקים, שגיאות גסות ותפיסות שגויות בכל הקשור ל-"למידה עמוקה". דאנינג-קרוגר אול-ארונד :) אני עוסק באינטנסיביות משתנה, אך ברציפות, ברשתות-נוירונים החל מבערך 2010. אני מכיר לא-רע גם את הזירה המחקרית וגם את זו המסחרית, גם את התאוריה וגם את הפרקטיקה. אתם מוזמנים לשאול אותי מה שבא לכם, ואשתדל לענות. בינתיים, קצת היסטוריה ורקע: Deep Learning הוא המיתוג האחרון של נושא שראשיתו בשנות החמישים. במובן מסויים, לא המון השתנה מאז. ההישג הגדול והראוי לציון של השנים האחרונות הוא שלמידה ממוחשבת חזרה למקומה הטבעי: מתישהו לאורך הדרך התחום נגרר להיות "אלגוריתמים אדפטיביים לסטטיסטקאים", למרות שמראשיתו הוא נועד להיות "אלגוריתמים אדפטיביים לבינה מלאכותית". לפי ההיסטוריוגרפיה המקובלת 50-60 השנה האחרונות מחולקות לשלוש תקופות (לפעמים מדברים על "שלושה גלים"): התקופה הראשונה מתחילה קצת לפני 1960 ומסתיימת קצת אחרי 1970, התחום מותג אז כ-"connectionism", והתמקד בעיקר בפרספטרונים (שהן מעין "רשתות" של נוירון אחד). המודל החישובי עצמו של הפרספטרון הומצא עוד הרבה לפני כן, ב-1943 (McCulloch–Pitts neuron). בערך מהיום הראשון כבר ידעו לומר שכמודל-חישובי רשתות נוירונים הן Turing-complete, אך רק ב-1958 התחילו לצוץ אלגוריתמי למידה עבורו. התחום יצא מהאופנה בתחילת שנות השבעים, מסיבות לא לגמרי ברורות. האגדה האורבנית מספרת שהגורם המרכזי לכך הוא הספר perceptrons שיצא לאור ב-1969 ועסק רבות במגבלותיהן של ארכיטקטורות מסויימות. לרוב מציינים את הוכחתו לכך שרשתות של נוירונים לינארים אינן יכולות לייצג אפילו פונקציות פשוטות כמו xor כגורם שדיכא את המוטיבציה לכולם. לי קשה להאמין בכך, כי (א) דא! ו-(ב) כאמור, באותו זמן כבר ידעו כמה עשורים שרשתות פשוטות קצת אחרות הן בעלות כוח חישובי אוניבריסלי. בכל מקרה, בסביבות שנות השבעים אנשים איבדו עניין (לא רק ברשתות נוירונים, אלא בלמידה ממוחשבת בכלל). הלמידה-הממוחשבת זכתה לפריחה מחודשת בתחילת שנות השמונים, והעניין בה שוב דעך במהירות. אך הפעם במקביל לדעיכה הכללית בעניין שעוררה הלמידה הממוחשבת, התעורר עניין רב (יחסית...) ברשתות-נוירונים, ואת הגל השני נהוג לזהות עם השנים שבין כ-1985 לכ-1995. בתקופה זו המיתוג העיקרי של התחום היה תחת הכותרת Artificial Neural Networks, והוכח המניע העיקרי של הגל השני היה "גילויו" של "אלגוריתם" ה-backpropagation שאפשר לאמן באופן שיטתי רשתות היררכיות עם כמה שכבות (כל המרכאות קודם נועדו להבהיר שמדובר ברעיון מאד פשוט ומוכר היטב, ִשרק חיכה שמישהו ישתמש בו בהקשר המתאים). רעיון אחר, סופר-מגניב ואורתוגונלי לחלוטין שהיווה תשתית לרעיונות סופר-מגניבים אחרים הוא של רשתות Hopfield (מ-1982) שהמוצאו כדרך למדל מתמטית "זיכרון אסוציאטיבי" במובן הפסיכולוגי. עוד הרבה רעיונות שהיום לפעמים מדברים עליהם כאילו הם חידושים מרעישים (כמו autoencoders או תאי LSTM) הומצאו למעשה בתקופה הזו. הסוף המר הגיע באשמת ופניק שבבסביבות 1992 המציא את ה-SVM שמשך אליו את כל הייפ. היה לו "סוג-של" ביסוס תאורטי (במונחים של PAC למי שמכיר) וביצועים פרקטיים מצויינים לאותו-הזמן, וההתגבשה הדיעה שרשתות-נוירונים הם רעיון מגושם שעבר-זמנו. כמעט כולם חשבו ככה, אבל לא כולם כמובן. ג'ופרי הינטון, שחלק גדול מהקרדיט לגל-השני מגיע לו (הוא אחד מהחתומים על ה-backpropagation) שמר על אמונתו, והביא במו-ידיו גם את הגל השלישי - הפעם תחת המותג Deep-Learning. ב-2002 הוא מצא אלגוריתם יעיל לאמן מודלים (מהמודלים הסופר-מגניבים שקשורים לרשתות Hopfield) שנקראים Restricted Boltzmann Machines (או בקיצור, RBMs). אפשר לחשוב עליהם כרשת-נוירונים שטוחה מאד בעלת שכבה יחידה שמאומנת באופן לא מפוקח (unsupervised learning) כדי ללמוד generative models (כלומר מודל שיודע להמציא "דוגמאות חדשות" שנראות כאילו הן נלקחו מתוך אוסף של דוגמאות נתונות). האלגוריתם (הידוע בשם Contrastive-Divergence algorithm), ביחד עם תוצאה נוספת של הינטון מ-2006 שהסבירה איך אפשר לשרשר הרבה RBMs ולקבל רשת עמוקה עם הרבה שכבות שאותה אפשר לאמן באופן מפוקח (supervised learning) היווו את הבסיס לצמיחה המחודשת של התחום (עד לפני כמה שנים זו הייתה בערך הדרך היחידה לאמן רשתות-עמוקות, אבל היום כבר אף אחד לא משתמש בה). אם אתם זוכרים את התחרות של Netfix שהציעו ב-2009 פרס של מיליון דולר למי שיצליח לשפר את אלגוריתם ההמלצה שלהם, אז RBMs היו מרכיב משמעותי באלגוריתם שזכה בפרס. באותה שנה (2009) - אחרי שרשתות נוירונים כבר התחילו לתפוס תאוצה משמעותית - התחילו להשתמש ב-GPUs כדי לאמן אותן. אבן דרך חשובה נוספת התרחשה ב-2012, אז רשת (קונבולוציה) בשם AlexNet (שוב הינטון היה מעורב...) זכתה בתחרות ראייה-ממוחשבת מפורסמת, והביסה לראשונה (ובהפרש ניכר) אלגוריתמים מבוססי SVM. מאז ועד היום כל התחום של ראייה ממוחשבת עבר מהפכה מוחלטת, וכמעט כולו נשען היום על רשתות קונבולוציה. בהמשך לתימת ה-"אין חדש תחת השמש" אציין שרשתות-קונבולוציה קיימות בשימוש מסחרי עוד מ-1989, ושלמרות המיתוג החזק שלהן, מדובר ברשות-נוירונים רגילות לחלוטין מהוסג הפשוט ביותר (feedforward networks). הרבה דברים שאף אחד לא האמין שאפשר יהיה להשיג לפני שנשיג AI מלא נוסח אסימוב או דאטא ממסע בין כוכבים, הושגו. רשתות נוירונים טובות יותר מבני האדם הכי טובים במשחקים מורכבים כמו Go או פוקר, ובמשימות בהן היה אפשר לחשוב שאנחנו מוצלחים במיוחד כמו זיהוי-פנים או אפילו זיהוי רגשות מתוך הבעות פנים. ויש עוד (הרבה מאד) דוגמאות אחרות, mind-blowing במידה דומה. כל הדיון לעיל על הצורך ב-"אינטואיציה אנושית" בנהיגה הוא די קומי :) לפני סיום, יש שלושה נושאים אליהם אני רוצה לומר משהו: (1) יש שם תאוריה\עומק\עניין? מלא. אני לא יודע מאיפה להתחיל. קודם כל, והכי פחות מעניין, "רשתות נוירונים" הן יותר פרספקטיבה על למידה-ממוחשבת מאשר "משפחה ספציפית של מודלים". למשל גם SVMs וגם מודלים לינארים מוכללים (כמו רגרסיה לוגיסטית) הן "סוג של" רשתות נוירונים. אז כמושא מחקרי הן עשירות לפחות כמו התחום כולו. שנית, יש מגוון עשיר ומאד מורכב של רשתות נוירונים. התאוריה המתמטית מאחורי energy-based models ו-attractor-networks כמו מכונות בולצמן היא מאד עשירה (וקשורה אינטימית ל-mean-field theory וגיאומטריה סימפלקטית למשל), וכך גם התאוריה (המתגבשת) מאחורי הדינמיקה של אימון GANs (שאותה אפשר לפרמל כמשחק סכום-אפס של שני סוכנים אדפטיביים, שמתכנסת - או שלא - לשווי-משקל נאש). שלישית, התחום מלא בִשאלות תאורתיות פתוחות ומאד מסקרנות. הגדולה מכולן היא כמובן "למה זה עובד?". כלומר, למה stochastic gradient descent מתכנס לנקודות אופטימום לוקליות כל-כך מוצלחות (יותר מוצלחות מאלגוריתמי-אופמיזציה מוצלחים יותר, נגיד קוואזי-ניוטונים) מנקודת המבט של generalization. הכיוון המסתמן קשור ככל הנראה לגיאומטריה של משטחי-השגיאה ובפרט לעקמומיות הלוקלית סביב הפיתרונות המתקבלים (כל מיני מושגים של flatness), שלהן יש גם אינטרפטציה (אולי שקולה) במונחים של תורת-האינפורמציה (נגיד, ה-information bottleneck של תישבי שאולי מוכר לחלק מהקוראים כאן - הרעיון בקצרה הוא שרוב המאמץ באימון כנראה לא מושקע במיקסום האינפורמציה-המשותפת בין התצפיות לבין ערך-המטרה, אלא דווקא במיזעור האינפורמציה המשותפת בין התצפיות לבין הייצוג הפנימי שלהן). (2) זה וודו! לאף אחד אין מושג מה הוא עושה! זה סתם ניסוי-וטעייה! במובן מסויים, כן. אבל אפשר להבין זאת כבעיה רק אם ממסגרים לא נכון את הסיטואציה. המסגור הנכון הוא פשוט זה: הצד המעשי של "שימוש ברשתות ניוירונים" זה סוג של הנדסה. ובדיוק באותו מובן הנדסת-תוכנה זה "וודו וניסוי טעייה"; מתי לאחרונה המתכנתים כאן השתמשו בתורת החישוביות בעבודה שלהם, או הסתמכו על הוכחות פורמלית כאשר הם עסקו בעיצוב או ארכיטקטורת תוכנה?. ובאותו מובן גם למידה-ממוחשבת "קלאסית" היא "וודו וניסוי טעייה"; מתי לאחרונה ראיתם מישהו נותן הצדקה פורמלית לבחירת ה-kernel וההיפר-פרמטרים של ה-SVM שלו, ומה זה בדיוק feature engineering אם לא ה-epitome של "ניסוי וטעייה"? אם כבר, אז העבודה עם רשתות-נוירונים קרובה הרבה יותר למדע או להנדסה-מסודרת מאשר האלטנרנטיבות. ואגב, יש ראיות תאורטיות חזקות לכך שלנצח זה יהיה המצב (כלומר, לא יהיה אף פעם "אלגוריתם למידה אולטמטיבי" שאפשר יהיה לעבוד איתו כמו קופסה שחורה באופן מכני לחלוטין). (3) סקיינט הגיעה, והאנושות אבודה שאלה פתוחה :) ואפשר להבין אותה בכל מיני מובנים. בתור התחלה, ישנן הרבה עבודות שכנראה יעלמו מהעולם בקרוב (נהגים כמובן, אבל כנראה שגם הקריירה של חלק מעורכי-דין ולפחות חלק מהרופאים למשל חיה על זמן שאול). האם זה טוב או רע? נחיה ונראה (אין אפילו טעם להתווכח על זה... זה פשוט יקרה, וסביר שדי בקרוב). חוץ מזה, אנשים מסויימים מפחדים מתרחיש "יום הדין" בסגנון שליחות קטלנית, בו המכונות יצאו נגדנו (למשל החבר'ה מmiri). אני לא שותף לחשש הזה (בקצרה: סיבה אחת היא שאין שום סיבה ש-AI מלא ו-agency יהיו כרוכים יחדיו, וסיבה שניה היא שמן הסתם לא תיהיה AI אחת, אלא יהיו הרבה). ולפינת הספקולציה הטהורה: יש תרחיש אחד שכן מפחיד אותי, וראינו ניצנים שלו עכשיו בפרשת Cambridge Analytica. שחקני גו מובילים ששיחקו (וכמובן הפסידו) מול רשת-נוירונים תיארו את החווייה כ-"משחק מול חייזר". הם לא הבינו מה הצעדים שהרשת עושה ולאן היא חותרת, ואז פתאום כבר היה מאוחר מידי והם הפסידו. שחקני פוקר מובילים ששיחקו (והפסידו כמובן) מול אלגוריתם תיארו חוויה דומה (וזו סביבה אולי מעניינת יותר, בגלל המרכזיות של "בלופים" ו-false signaling בתוכה). אם מחברים את האופן היעיל עד-כדי-שיתוק בהם "שחקני בינה-מלאכותית" מסוגלים לפעול, יחד עם כמות המידע באשר לתקשורת אנושית והרזולוציה שלו (לא רק רשתות חברתיות! גם במשימות כמו "תמלול של דיבור" או "קריאת שפתיים" רשתות נוירונים כבר טובות יותר מבני-אדם), זו תהיה הפתעה אם לא יהיה אפשר לבצע מניפולציה עדינה ואפקטיבית בעמדות ודיעות של אנשים בהיקף נרחב. אני לא מדבר על "תעמולה", "פייק-ניוז" או שיטות גסות כאלה. אני מדבר על השפעה עצומה על דיעות של אנשים שקולים ומיושבים בדעתם (כמוכם וכמוני, הייתי רוצה להאמין) באמצעות הדגשה והצנעה מחושבת של אינפורמציה, שליטה עדינה במסלולי ההפצה שלה, משחקי ניסוח קלים וכדומה. דברים בלתי-מורגשים שאת האפקט שלהם קשה (לבני אדם) לאמוד וקשה (לבני אדם) לתמרן או להעריך את משקלן, אך אלגוריתמים מתוחכמים דיים כנראה יוכלו לעשות בקלות (כמו הצעדים המסתוריים של התוכנה ב-go או הבלופים של התוכנה בפוקר), ולתמרן באוכלוסיה כולה תוך ניצול החולשות הקוגנטיביות הטבועות בכולנו מבלי שאף אחד בכלל ירגיש. אני לא חושב על איזה "המון נבער" אלא מסתכל על עצמי, אדם יחסית מושכיל, רציונלי ומודע - ואני משוכנע שאפשר לשחק בי בקלות בשיטות כאלה. גם בכם. כאמור, אני לא חושש שאיזו בינה-מלאכותית תעשה זאת על "דעת עצמה" אלא שבעלי-אינטרס ישתמשו בבינה מלאכותית באופן הזה כדי לקדם את עצמם. |
|
||||
|
||||
תודה רבה על התגובה המושקעת. תוכל בבקשה לפרט איך רגרסיה לוגיסטית, למשל, היא מקרה פרטי של רשת נוירונים? |
|
||||
|
||||
הצורה הפונקציונלית של רגרסיה לוגיסטית היא הרכבה של העתקה-אפינית עם פונקציית סיגמואיד, ואפשר לייצג אותה בקלות על ידי "רשת" בעלת נוירון יחיד עם אקטיבציה סיגמואידית. אימון של הרשת תוך שימוש ב-cross-entropy כפונקציית שגיאה, תוביל בדיוק לאומדן הנראות המירבית של מקדמי הרגרסיה. רשתות גדולות המשמשות לקלסיפיקציה בינארית אפשר להבין כהרכבה של חלק מסובך שלומד ייצוג מוצלח של התצפיות, עם חלק פשוט ששקול לרגרסיה לוגיסטית הקושרת בין הייצוג הנלמד לערך המטרה. |
|
||||
|
||||
ואללה, הסיגמואיד של פונקציית logit באמת יכול בדיוק להתלבש על פונקציית האקטיבציה של נוירון, אז זה מסתדר. אבל מה עם מודלים לינארים מוכללים אחרים, למשל רגרסיה פואסונית? או אפילו עם רגרסיה לינארית רגילה? איך מתמודדים ברשתות נוירונים עם פונקציות שהטווח שלהן לא חסום? |
|
||||
|
||||
כאשר ערך-המטרה אינו חסום (כמו במקרה של רגרסיה לינארית) המצב פשוט במיוחד: לא משתמשים באף פונקציית אקטיבציה, והשכבה האחרונה (והיחידה, במקרה של רגרסיה לינארית) היא רק פונקציה אפינית. ככלל אצבע, כאשר מדובר ברשתות-נוירונים - ייצוג הוא אף פעם לא בעיה. הדימוי של רשת נוירונים כ-"אוסף של פונקציות זהות מסודרות בשכבות" הוא מאד מטעה. רשתות feed-forward (אני מתאר לעצמי שעליהן אתה חושב כשאתה חושב על רשתות-נוירונים) מייצגות פונקציות באמצעות מבנה (computational graph) שיכול להיות מורכב מאד, הרבה יותר מסתם "שכבות". וכאמור רשתות feed-forward הן רק חלק מהסיפור, ובהחלט לא הסיפור כולו. אבל אפילו אם מגבילים אותן למבנה של שכבות, ואפילו אם מגבילים את מספר השכבות ל-2 - הן עדיין יכולות לייצג כל פונקציה. |
|
||||
|
||||
תודה גם בשמי, על החלקים שהבנתי (שהם בעיקר מילות יחס). בעניין החשש שלך מפני השפעות לא מודעות, האם לא ניתן יהיה להתגונן בפני אותן "חולשות קוגניטיביות" ע"י רשתות ידידותיות שבניגוד לנו כן יוכלו לזהות את המניפולציות? אולי יתפתח עוד מירוץ של תוקפים ומגנים כמו אלה שאנחנו מכירים בהרבה שטחים, אלא שהשחקנים הפעם יהיו רשתות נוירונים. |
|
||||
|
||||
אני לא יודע, אבל אני מנחש שאפשר (וכנראה יש גם עוד פתרונות אחרים, טכנולוגים וחוקיים). הבעיה הגדולה היא שמהערכת התמריצים בעולמנו צפויה להפנות הרבה יותר משאבים ואנרגיה לחבר'ה הרעים מאשר לטובים. לכולם יש אינטרס לתמרן אותך. |
|
||||
|
||||
תודה! "מתי לאחרונה המתכנתים כאן השתמשו בתורת החישוביות בעבודה שלהם, או הסתמכו על הוכחות פורמלית כאשר הם עסקו בעיצוב או ארכיטקטורת תוכנה?" (אני מניח שהפסקה הזו היא תשובה במידה רבה לתגובה 698311 שלי) כמעט אף פעם לא, אבל מה שאנחנו עושים הוא כמעט אף פעם לא וודו - אנחנו חותרים באופן מובנה, תכליתי ומנומק לכל מטרת משנה (פתרון באג נתון). פעם בכמה ימים יש רגעים של וודו, בעבודה מול מערכת אחרת שאתה לא רוצה להשקיע ימים בלהבין אותה לעומק ומוצא משהו שעובד בלי שאתה מבין למה. אבל זה חלק קטן מאוד בעבודה. |
|
||||
|
||||
אני חושב שהמצב בהנדסת תוכנה ובפיתוח רשתות-נוירונים מאד דומה. בסופו של דבר, כאשר יושבים אנשים ובונים רשת-נוירונים, הם יודעים מה האלטרנטיבות שעומדות מולן בהנתן בעיה ספציפית, ואיך לשקול אותן. הם יודעים למה לצפות, ויודעים להבין את הבעיות הצפויות. הם יכולים להמנע מראש מחלקן, ולזהות את האחרות שבכל זאת צצות. והם מכירים best practices כדי לפתור אותן. יש לרשותם מתודולוגיה עשירה, הנשענת בחלקה על ידע תאורטי וחלקה (הגדול יותר) על ניסיון מעשי. והמתודולוגיה כמובן משתנה עם הזמן, גם בזכות ידע שהולך ונצבר, וגם בשל אופנות וטרנדים. בפיתוח תוכנה, נכון שכאשר מדובר ביישום של אלגוריתמיקה או business logic אין בכלל וודו באופן עקרוני, אבל כמעט תמיד הוא נמצא שם באופן מעשי, בגלל מנגנונים (עם סייד-אפקטס מורגשים) שמסתתרים מאחורי אבסטרקציה שאותה המתכנת לא ממש מכיר (ה-cache replacement policy של המעבד, ה-congestion control בראוטר, אופטימיזציות של הקומפיילר וכו'). הדרך להתמודד עם זה היא כמובן לדבוק בשיטות-פיתוח בדוקות ומקובלות בתקווה שהכל פשוט יעבוד, ולעבור לווריאציות של ניסוי-וטעייה כשזה לא עובד. וכאשר מדובר בעיצוב תוכנה - אז כבר כמעט כל ההחלטות נשענות על היוריסטיקות ומורשת קרב. זה אולי לא "וודו", אבל זה עונה לתיאור "מובנה, תכליתי ומנומק" רק במובן מאד רחב, שתקף באותה מידה גם לבנייה ואימון של רשתות נוירונים. ואולי בכלל השוואה "הוגנת יותר" היא בין פיתוח רשתות-נוירונים לבין פיתוח פתרונות במסגרת "למידה ממוחשבת קלאסית" (באמצעים כמו gradient boosting או SVMs). שם אני חושב שהמצב לא שקול, אבל בכלל שלרשתות-נוירונים יש יתרון מתודולוגי ברור. |
|
||||
|
||||
תגובה נאה. בקשר למשפט האחרון שלך, בעלי-אינטרס משתמשים כבר היום בבינה "באמצעות הדגשה והצנעה מחושבת של אינפורמציה, שליטה עדינה במסלולי ההפצה שלה, משחקי ניסוח קלים וכדומה" כדי "לתמרן באוכלוסיה כולה תוך ניצול החולשות הקוגנטיביות הטבועות בכולנו". רק שזו אינה בינה מלאכותית, קוראים לזה פוליטיקאים1, ולמרות הבוז שנפוץ לחוש להם, גם כאן באתר, חלקם עושים זאת במיומנות שלא היתה מביישת שחמטאי רב אמן. אז למה אתה מוכן לקבל את זה אבל מפחד דוקא מבינה מלאכותית? 1 או פרסומאים, ויש עוד כמה. |
|
||||
|
||||
עם כל הכבוד ליכולת המניפולציה שהפוליטיקאים והביליונרים שמאחוריהם מפגינים היום, הפער בין היכולת שלהם לשחק בדעת הקהל לבין היכולת הפוטנציאלית של בינה מלאכותית לעשות זאת מגמד את הפער בין היכולת שלהם לשחק שחמט לבין היכולת של בינה מלאכותית לעשות זאת. החשש שלי הוא מהבדל כמותי כ''כ גדול, שהוא הופך להבדל איכותי, שמאפשר לא ''מניפולציה'' אלא כמעט ''שליטה'', ולא ב-''המונים'' אלא בכמעט כולם. מערכת שתוכל לגרום לדב אנשלוביץ לתמוך במרץ ולארז לנדוור לאמץ את מצע הבית היהודי (ולשניהם לקנות המון קולה, כמובן). אבל כאמור, זו ספקולציה מוחלטת, והיא לא ממש קשורה לכל שאר הדיונים כאן. אז לא ארחיב עוד על איך אני חושב שזה אפשרי. |
|
||||
|
||||
הבעיה שלי עם זה - למה שאלגוריתם הבינה המלאכותית של הליכוד יהיה חזק מזה של העבודה? יחסית למצב הנוכחי, בו ביבי הקוסם מסובב את כולם על האצבע, דוקא הגישה של כולם לאלגוריתמים כאלה היא סוג של דמוקרטיזציה של המניפולציה. באגע שלכולם יש את הכלים האלה, הרבה יותר קשה למניפולטור יחיד לקחת את כל הקופה. |
|
||||
|
||||
לפני כמה שנים נחשף שפייסבוק ערכה בחשאי ניסויים בהשפעה של חדשות על רגשות המשתמשים. |
|
||||
|
||||
ובאשר ל"לקחת את כל הקופה" - יש לנו דוגמה היסטורית אחרת לתהליך דומה: המסחר האלגוריתמי. שנראה לי שדי מדגים את הטענה שלי. בטרם קיום המסחר האלגוריתמי, עיוותים והזדמנויות פז שנוצרו בשוק נוצלו על ידי בינות לא-מלאכותיות חדות עין וחושים כדי לגרוף הון ממסחר ולהפוך ל"גאון פיננסי" - המקבילה ל"קוסם פוליטי" מהתחום לעיל. כיום האלגוריתמים האלה מזהים בחלקיקי שניות כל סטייה שכזו וסוגרים אותה מיד, מה שמקטין מאד את היכולת של סוחרים אנושיים בודדים לגרוף רווחים ממסחר ספקולטיבי (וגם אחר מן הסתם). וכך "הפסדנו"1 מאות גאונים-פיננסיים-של-המאה-20 שמסתובבים בינינו כאנשים פשוטים של המאה ה-21 שאולי מתפרנסים בכבוד אבל לא יותר מזה. 1 ואולי הרווחנו?2 2 למען ההסתייגות אומר שלמסחר האלגוריתמי יש יתרון מובנה שיטתי ובזוי - לא, לא המהירות שלו - שנותן לו פור לא הוגן כלפי שאר הסוחרים, שזה העמלות האפסיות שלו, בסדרי גודל מתחת לכל סוחר אחר. אבל על זה כבר התלוננתי כאן לא מעט וזה לא נושא הדיון. |
|
||||
|
||||
במסחר במטבעות דיגיטליים נפוץ מאד שימוש בבוטים שמייצרים המון הודעות סרק שנועדו להפיל בפח את המשקיעים (מהמרים?) הפשוטים. כך, האלגוריתמיקה יכולה לעקוב לא רק אחרי נתוני המסחר אלא גם אחרי ההפצה של ההודעות האוטומטיות (והרבה פעמיפ לא אמיתיות או מטעות) ולםי זה לנווט את הפעילות של מי ששולט במנגנונים האלה. |
|
||||
|
||||
החשש הוא לאו דווקא מזה שגוף אחד יקח את כל הקופה; עצם זה שאני נתון למניפולציות כאלה, גם אם הן בסוג של "תיקו" בין גורמים יריבים, הוא מטריד מאין כמוהו. (אנלוגיה: בחשש הנושן, שלמדנו איכשהו לחיות איתו ואולי אינו כה כבד, שמפרסמים שוטפים לנו את המוח, לא מנחם אותי במיוחד אם פפסי וקוקה שוטפות את מוחי בשיווי משקל.) |
|
||||
|
||||
כן, אבל: - במה זה שונה ממה שכבר קורה היום? - בפוליטיקה למשל שטיפת מח הדדית קצת מבטלת את האפקט, מהסיבה הפשוטה שהמקרר שלך סובל בקבוק פפסי ליד בקבוק קולה אבל מעטפת ההצבעה שלך בקלפי לא. |
|
||||
|
||||
ההבדל מהיום הוא לא בהכרח הבדל קטגורי, אבל יכול להיות הבדל כמותי של סדר גודל, מבחינת מידת השליטה בי והמידה שזה מצמצם, במובן מסוים, את הערך שלי והרצון החופשי שלי. לפחות כך אני מבין את החשש של עומר. |
|
||||
|
||||
כדי לגרום לי לתמוך במרץ תצטרך המערכת לדעת לשנות את חוקי הטבע. ואפרופו, חשבתי דווקא על בעיית הכיכר שהציג נדב בתגובה 698219 עניתי לו שכפי הנראה אם נחשוב הרבה נוכל בסופו של דבר לפתור את הבעיה הזאת. אחר כך באמת חשבתי, והגעתי למסקנה שהפתרון אכן יימצא ואפילו די בקלות אבל הוא יהיה חייב להיות על ידי הגמשת חוקי התנועה1 כי אין שום פטנט שמאפשר את פתרון הבעיה כשמקפידים על חוקי התנועה כלשונם. קשה לי לחשוב איך החלטה על רשות לשנות את חוקי התנועה יכולה להגיע ממערכת ממוחשבת ואפילו המשוכללת ביותר. בסופו של דבר צריך שאיזה אדם ייתן לה את הרשות לעשות זאת. הרי היא לא תעבור על הסמכויות שהעניקו לה, ואילו האדם "באופן אינטואיטיבי" מרשה זאת לעצמו. 1 אני חושב שבעולם שבו יהיו רק מכוניות אוטונומיות לא יהיו בכלל חוקי תנועה, או שלפחות לא יקראו לזה כך. יהיה איזה אלגוריתם שמסדיר את התנועה. |
|
||||
|
||||
הבעיה הזו, כמו בעיקרון כל הבעיות האחרות עם רכבים אוטונומיים, כבר נפתרה. מזמן. מזה כמה שנים (אני לא בטוח כמה הפיתרון לבעיה הספציפית הזו עתיק; המספר הוא בין 5 ל-25 שנים) מכוניות אוטונומיות יודעות להתמודד עם כיכרות בתנאים "טבעיים" (כלומר בחברת מכוניות עם נהגים, ותחת חוקי-התנועה הנוכחיים). אני לא רוצה ליצור את הרושם שנהיגה-אוטונומית זו בעיה קלה (היא לא), אבל היא ככל הנראה הרבה יותר קלה ממה שחלק מהאנשים כאן חושבים. הנה וידאו עם הדגמה והסבר קצר על הנושא, משנת 1997, המציג פרוייקט שייצר מכונית אוטונומית כבר בשנת 1986. |
|
||||
|
||||
תודה על התגובה המושקעת. ברצוני לשאול על משהו שעורר את סקרנותי. לי נראה מובן מאליו שכל אלגוריתם המנסה ל"הבין" סרט על בסיס של סדרת תמונות בודדות הוא שגוי מיסודו. לראיה, אפשר לקחת סדרת תמונות ולערבב אותה. ברור שרוב הסידורים החדשים יהיו חסרי ערך כסרט רציף. האם ריבוי השכבות כולל בתוכו גם השהיית תמונה בין שכבה לשכבה, כך שכל תוצאה של העיבוד היא בהשהיה מסויימת תוצאה של תמונה מסוימת ועוד הרבה תמונות לפניה שנמצאות באותו זמן במערכת (בשכבות השונות)? כמה כבדה מערכת "הבנת תמונה" על בסיס רשת נוירונים עמוקה? האם מערכת כזו יכולה לזהות מכשול מסוכן/לא מסוכן בסקאלת זמן של מאיות שנייה? |
|
||||
|
||||
הרחבת השאלה של שוקי: האם יש גם רשתות נוירונים עם מצבים פנימיים שיכולים לבטא במידה כלשהי את ההקשר? בעיקרון אני יכול לדמיין רשת עם משוב, כלומר שחלק מהפלט שלה מצטרף אל הקלט של האיטרציה הבאה אבל יש לי הרגשה שאני not even wrong. |
|
||||
|
||||
not even wrong? תיארת בגדול את הסכמה הנפוצה ביותר להתמודד עם הסיטואציה. לרשתות כאלה - שמופעלות איטרטיבית ובכל צעד הקלט שלהן כולל בין השאר (בנוסף לתצפיות, בד"כ) גם קידוד של "המצב הנוכחי", והפלט שלהן כולל בין השאר (בנוסף לתחזיות, בד"כ) גם את הקידוד של "המצב החדש" - קוראים RNNs (ר"ת של Recurrent Neural Networks). אפשר לחשוב עליהן בתור הכללה של מודלי state-space קלאסיים כמו ה-Kalman filter או Hidden Markov Models. האימון והתכנון שלהן נוטה להיות טריקי; הן באופן כללי צריכות גם ללמוד כיצד ה-latent state קשור לתצפיות, וגם ללמוד את הדינמיקה בה ה-latent-state משתנה עם הזמן (זאת בנוסף לאתגרים טכניים אחרים שהן מציבות). אבל יש סט-גדול של טכניקות סטנדרטיות (יותר או פחות) לעשות זאת, והן בהחלט מעשיות. רשתות מהסוג הזה הן מאד שימושיות, ולא רק עבור נתונים עם מבנה טמפורלי ברור. אפשר להשתמש בהן למשל גם כדי לנתח תמונות ע"י סריקה סדרתית של חלקים מתוכן, או כדי לנתח משפטים בשפות טבעיות ע"י סריקה של סדרת המילים. באופן כללי, הרשתות הפשוטות והמוכרות ביותר מתנהגות כמו "פונקציה מתמטית": הן מפה בין קלט לפלט. אך ישנן ארכיטקטורות אחרות שאינן כאלה, שהן stateful, ופעולתן אולי דומה יותר להרצה של תכנית מחשב. RNNs למינהן (כפי שהצעת) הן הסוג הנפוץ ביותר של רשתות כאלה, אך יש גם סוגים אחרים. |
|
||||
|
||||
אתה יכול להוסיף או לתת הפניה לשימוש ב RNN ב NLP? |
|
||||
|
||||
זה נושא מיינסטרימי. הבעיה אינו למצוא רפרנס, אלא לברור ביניהם, ולצערי אין לי איזה "רפרנס אולטמטיבי". תוכל למצוא סקירה טכנית עם הרבה הפניות נוספות בפרק העשירי כאן, וספציפית, בהקשר של NLP, אני מניח שתתעניין בעיקר ב-sequence to sequence models. |
|
||||
|
||||
תודה. |
|
||||
|
||||
רשתות שעובדות על וידאו לא מתייחסות לכל פריים כבלתי תלוי באחרים. נניח לצורך הפשטות שהקלט הוא רצף של תמונות בשחור לבן (בפועל, במערכת כמו רכב אוטונומי, כנראה שבכל פיקסל יהיה מקודד מידע עשיר בהרבה מסתם בהירות, כמו מידע על צבע ועל עומק, והמערכת לא תתמודד רק עם רצף של פריימים ממצלמה אחת אלא עם פיוז'ן של אותות המגיעים מסנסורים רבים, חלקם מצלמות וחלקם לא). ונניח גם שנרצה לנתח את הקלט באופן קזואלי (כלומר שהניתוח בכל נקודת זמן יעשה רק על סמך אינפורמציה הזמינה באותה נקודת-זמן או לפניה). זה בד"כ המצב במערכות זמן-אמת (כמו רכב אוטונומי), אך לא במערכות הפועלות אופליין (כמו למשל בניתוח סמנטי של סרטונים המועלים ליוטיוב). דרך מקובלת אחת לקחת בחשבון את הקונטקסט, היא באמצעות קונבולוציות. במקרה של וידאו מדובר יהיה בקונבולוציות על בלוקים של מרחב-זמן (בניגוד לקונבולציות הפעולות רק במרחב, כמו במקרה של תמונות). זה קצת דומה למה שהצעת (אם אני מבין נכון את כוונתך ב-"השהיית תמונה בין שכבה לשכבה"), אבל זו טכניקה שבפני עצמה היא מאד מוגבלת, מכיוון שהיא מסוגלת לקחת בחשבון רק אינפורמציה מאד לוקלית (דברים שקרו לאחרונה). דרך מקובלת אחרת לקחת בחשבון את הקונטקסט, היא באמצעות RNNs כפי שמתואר בתגובה שכתבתי לשכ"ג, המאפשרות גם לקחת בחשבון אירועים רחוקים יותר בזמן ולהבין באופן הוליסטי יותר הסיטואציה שלפניהן. וכמובן שאפשר (ורצוי, ומקובל) לשלב את שתי הגישות. לגבי זמני-תגובה: האימון של רשתות מורכבות הוא משימה מאד כבידה מבחינת המשאבים החישוביים והזמן הנדרש. אך השימוש בהן, לאחר האימון, הוא משימה כבדה בסדר-גודל רבים פחות (היא עדיין עשויה להיות יחסית כבדה, תלוי ברשת ובבעיה הסציפית). שיפור הביצועים בהרצת רשתות מאומנות זה מדע בפני-עצמו (למשל באמצעות pruning של חלקים מהרשת, או רדוקציה של הייצוג המספרי של הפרמטרים, או ביזור, או קירוב וכו' וכו'), ואני לא חושב שלגוגל למשל (שבונה את הרכב כולו, ויש לה שליטה מלאה על מערך החיישנים, החומרה והתוכנה) יש בעיה לעמוד בזמני התגובה הנדרשים. |
|
||||
|
||||
הערה צדדית: החלק שהכי מרשים, או מפתיע, אותי הוא שאפשר לקבל את משאבי החישוב הדרושים במחיר סביר. במחשבה נוספת, יותר מרשים מזה הוא שהמוח שלנו עושה משהו דומה עם מעבדים איטיים בהרבה. |
|
||||
|
||||
ובמחשבה שלישית: אבל מספר המעבדים שונה... |
|
||||
|
||||
אתה מדבר על משאבי החישוב בלמידה או ביישום? כי אלה סדרי גודל שונים מאד. |
|
||||
|
||||
לא בטוח שהמוח שלנו עושה משהו דומה. אלנ"ב (אני לא נוירו-ביולוג), אבל למיטב ידעתי את האנולוגיה בין "רשתות נוירונים" בלמידה-חישובית לבין "רשתות נוירונים" בנוירוביולוגיה צריך לקחת בערבון מאד מוגבל. אין ספק שישנה הפרייה הדדית בין שני התחומים, אבל בד"כ האנלוגיות נשברות די מהר. למשל, היסטורית אחת המוטיבציות המרכזיות מאחורי פונקציית האקטיבציה הנפוצה ביותר היום (ה-rectifier, כנראה מוכרת יותר בשם ReLU) היא מעבר-הפאזה האמפירי שנצפה בניורונים ביולוגים (כלומר: רק אם סך הפוטנציאלים הקדם-סינפטיים גדול מאיזשהו סף, נוצר פוטנציאל פעולה). זאת לעומת ההתנהגות של פונקציית האקטיבציה שזכתה למירב הפופלריות לפני כן בלמידה עמוקה (ה-hyperbolic tangent הסימטרית). אבל מצד שני, מעבר לסף, הפעולה של ה-rectifier פרופורציונאלית לקלט, בעוד שאצל נוירונים ביולוגיים (בד"כ) היא קבועה. ובכלל, הסיבה המרכזית להצלחה של ה-rectifiers (בניגוד לאקטיבציות אחרות שגם הן א-סימטריות, כמו סתם thresholds או פונקציית ה-softplus) בעליל לא קשורה למוטיבציה ביולוגית כזו או אחרת, אלא היא טכנית לגמרי וקשורה להתנהגות הנחמדה של הנגזרת שלה בהקשר של אלגוריתמי האופטימיזציה הנפוצים (ווריאציות של SGD) ויעילות המימוש שלה. ככל הנראה לסיבה הזו אין שום קשר לביולוגיה. דוגמאות אחרות (ומעניינות יותר) להפרייה הדדית הן למשל הרעיון של למידה הביאנית שפותח בהקשר של נוירוביולוגיה, והתגלגל לאלגוריתמי הלמידה הראשונים שפותחו לפרספטרונים ואח"כ ללמידה במודלים מבוססי-אנרגיה, או למשל רשתות הופפילד שפותחו כמודל לזיכרון-האנושי, ומהן נגזרו תאוריות מעניינות ואלגוריתמים שימושיים בלמידה-חישובית, או למשל ה-wake-sleep algorithm שנמצא על קו-התפר בין נוירולוגיה-תאורטית, למידה-בייסאנית ולמידה-עמוקה ומצד אחד מהווה תאוריה נוירוביולוגית מעניינת לכך שבעלי-חיים באופן כללי נוטים לישון מידי פעם, ומצד שני משמש כאלגוריתם לאימון משפחה מסויימת של מערכות-לומדות, או למשל הדמיון בין רשתות-קונבולוציה בראייה-ממוחשבת לבין המבנה של ה-visual cortex ההתאוריה הנוירוביולוגית של receptive fields (צפייה מומלצת: ניסוי החתולים של Hubel ו-Wiesel). אבל למרות כל זאת, ההבדלים בין התחומים עולים בהרבה על הדמיון. כמובן, החומרה מאד שונה. וההתנהגות של מודלים דינמיים של נוירונים ביולוגיים (כמו Hodgkin–Huxley model) שונה מאד מזו של "נוירונים" בלמידה-חישובית, ואפילו המודלים הדינמיים האלה בעצם שונים מאד מהמכניקה הביולוגית (תעלות ומשאבות יונים, מוליכים עצביים, וכל זה). ולמרות שהמוח הוא בברור מערכת מאד אדפטיבית, היא גם מערכת עם התמחויות מאד ספציפיות שחווטו במהלך האבולוציה. לא ממש ברור מה "הדרך הנכונה" למדל בכלל את האופן שבו המוח הוא אדפטיבי (זה כנראה יותר בכיוון המאד כללי של reinforcement learning מאשר supervised learning), ולא ממש ברור איך פועלת מערכת המשוב של האדפטציה הזו. גם אם גרסה כלשהי של backpropagation ו-SGD משחקת תפקיד בלמידה הביולוגית, היא כנראה שונה באופן ניכר מהגרסה המשמשת בלמידה חישובית. אני חושב שזו אחת הסיבות שאנשים התרחקו מהטרמינולוגיה של "רשתות-נוירונים" והמותג "למידה-עמוקה" התחזק (ומעניין מה יקרה לו אם יתברר בהמשך שהעומק לא משחק תפקיד נורא-חשוב...). |
|
||||
|
||||
עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה אולי נובע מהשימוש בתואר "עמוקה" בשם המותג. זאת פשוט מילה מצוינת, שמשדרת כובד ראש ו... עומק. ע"ע תיאוריית הקונספירציה deep state, וכן deep structure של חומסקי. אפרופו הסוגריים האחרונים אצלך: נדמה לי ששמעתי פעם שאחד החלוצים של רשתות הנוירונים כתב באחד המאמרים המכוננים של התחום שאי אפשר להשיג שיפור משמעותי ע"י הוספת הרבה שכבות, כל הקהילה פשוט קיבלה את דעתו (הבלתי מנומקת), ולכן לקח הרבה שנים עד שגילו - יחסית לאחרונה - שעומק דווקא מאד עוזר. מוכר לך הסיפור הזה, או שאני משבש/הוזה? |
|
||||
|
||||
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים). באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו. 1 נו, Low hanging fruits |
|
||||
|
||||
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים. לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר. |
|
||||
|
||||
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר. |
|
||||
|
||||
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה? |
|
||||
|
||||
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם. |
|
||||
|
||||
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון? אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה. ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך). בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field. זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה. ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...). יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי. |
|
||||
|
||||
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה |
|
||||
|
||||
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה. אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech). (וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs). |
|
||||
|
||||
hmm זה דוגמא ולא העקרון. שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא. |
|
||||
|
||||
איבדתי אותך. |
|
||||
|
||||
הנה השתלשלות הפתיל כפי שאני רואה אותה. יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח פונז: מתפלא עליך, משתמשים בזה כי זה עובד אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב. עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה ואני מזכיר שיובל כתב: חלק קטן |
|
||||
|
||||
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור. |
|
||||
|
||||
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי. |
|
||||
|
||||
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה. |
|
||||
|
||||
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור. |
|
||||
|
||||
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא. הנה נימוק ללא דוגמא. לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect. [אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.] מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה. |
|
||||
|
||||
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות. כבר אז התוצאות נראו נאות. |
|
||||
|
||||
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום. |
|
||||
|
||||
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)? |
|
||||
|
||||
טובים בהרבה. הרבה יותר זכירים ופחות גנרים. וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע. |
|
||||
|
||||
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד). באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure". אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization. |
|
||||
|
||||
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי: 1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו. 2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה). |
|
||||
|
||||
זו אולי מסביר את ההצלחה של המותג "למידה עמוקה" (נדמה לי שהשם עלה לראשונה כעשור או שניים לפני שהוא באמת תפס). התחום עצמו לא צריך מטא-הסבר להצלחתו. יש המון "משפטי-אוניברסליות" מהצורה "כל רשת עם רק 2 שכבות (+אותיות קטנות) יכולה לייצג כל פונקציה", שמהן אפשר בטעות להבין שלא צריך עומק. אבל השאלה של ייצוג (capacity) היא לרוב לא באמת מעניינת, ויכולת-ההכללה היא הנקודה החשובה - וכאן כנראה שלעומק יש תפקיד חשוב. חלק גדול מזה מובן תאורטית ומתמטית, אבל השאלה אם נגיד 10 שכבות הן די והותר, או האם כל-המרבה-הרי-זה-משובח עדיין פתוחה. הסיבה שרשתות עם יותר מ-2-3 שכבות הפכו לפופלריות בשנים האחרונות היא לא כי גילו שעומק עוזר, אלא פשוט כי סופסוף גילו איך אפשר (אלגוריתמית) לאמן כאלה רשתות. |
|
||||
|
||||
הייתי בהרצאה בת יומיים וחצי של מומחית לסטטיסטיקה וללמידה חישובית, שמחלקת את זמנה וגם את הרצאתה בין שני התחומים, ולפחות כמרצה היא תותחית-על. אחת ההבחנות שלה היתה שאלו שני תחומים דומים, וההבדל העיקרי הוא שסטטיסטיקאים קוראים לדברים בשמות משמעממים/שמרניים ואילו אנשי הל"ח קוראים לדברים בשמות מגניבים/יומרניים. פונז - זה שקראו לזה בהתחלה "רשתות נוירונים קונבולוציוניות מרובות שכבות" הוא אולי דוגמה נגדית. אבל אולי דוגמה מחזקת? עובדה ש"הגניבו" את השם... |
|
||||
|
||||
זו קצת שאלת ביצה ותרנגולת, כי אולי השם "הוגנב" רק אחרי שהטרנד התפשט ממעבדות המומחים כמו אש בשדה קוצים? ואז, מרגע שהיה צורך במאמרים פופולריים יותר במדיה הציבורית שמתארים את התופעה החדשה, הומצאו מושגים קליטים יותר שיתאימו לתיאור הזה? רוצה לומר, "החתול של שרדינגר" הומצא יותר מעשור אחרי שהפיזיקאים כבר טחנו משוואות דיפרנציאליות של גלים ומטריצות הרמיטיות של אופרטורים שהצליחו לתאר את העולם בצורה חדשה ונפלאה מבלי להידרש למטאפורות מגניבות על חיות מחמד נפוצות. |
|
||||
|
||||
נכון מאד. טרבור הייסטי מאונ' סטנפורד, אחד האלילים של הלמידה הסטטיסטית1, נתן הרצאת keynote בכנס של האיגוד הישראלי לסטטיסטיקה לפני שנתיים. הוא אמר שם שהרבה מאד מהרעיונות החדשים לכאורה, שהופצו ע"י מדעני למידה עם שורשים במדעי המחשב, הם בעצם רעיונות ידועים היטב בסטטיסטיקה כבר משנות השמונים והתשעים, והוא מתפלא שרק בשנים האחרונות התפוצץ כל ההייפ הזה. מותר לשאול מה שמה של המומחית? ____________________ 1. בין השאר, אחד ממחברי the Elements of Statistical Learning. |
|
||||
|
||||
קאסי קוזירקוב. |
|
||||
|
||||
יש לה בלוג חדש, עם פוסט יחיד בינתיים שהוא הסבר קצרצר להדיוטות על מה זה למידת מכונה. |
|
||||
|
||||
כשנתקלתי באחת הכותרות שלה בהסבר ללמידת מכונה: Explain with examples, not instructions, נזכרתי במשהו שרציתי לכתוב כאן מזמן בקשר לויכוחים ארוכים בנושא אחר לגמרי - "מהי אמנות". מהלך אופייני בויכוח כזה הוא שלבסוף מתכנסים לאמירה שמאחר ואתה לא יכול *להגדיר* מהי אמנות, כל ויכוח לגבי האם תערוכה או מוצג כזה או אחר הם 'אמנות' נידון לכשלון בגלל שאנחנו לא מצליחים לנסח הגדרה מדויקת מספיק למהי אמנות. באה למידת המכונה ומבהירה לנו שהדרישה להגדרה (=תיאור מילולי קצר=תיאור אלגוריתם לסיווג אמנות/לא אמנות=instructions בציטוט לעיל) היא ארכאית בערך כמו הדרישה לקרוא 'דואר' רק למשהו שיש עליו בול ודבק או הדרישה להגדיר 'טלפון' כמשהו שיש לו חוט שקשור לקיר. אומרת למידת המכונה - סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן, וממשיכה ומלמדת אותנו ה'למידה העמוקה' שסיווג כזה הוא הרבה יותר מדויק ומוצלח מהישן. לך לרשת הנוירונים העמוקה המובילה היום בסיווג תמונות ל'כלב' ו'חתול' ותשאל אותה על תמונה מסוימת 'למה החלטת שזה חתול' - שזה מקביל אולי לשאלה 'לאיזה "הגדרות" של חתול היא מתאימה' - והיא תצחק לך בפנים, תכנת פורטרן מהאייטיז שכמוך, ואם תתעקש תענה לך בטבלה ארוכה ומפורטת של עשרות מיליוני המשקלות ברשת שהם אלה שמחליטים שזה חתול. אז לסיכום, אם לא הובנתי עד כה, מה שלמדנו מלמידת מכונה זה שקיום 'הגדרה' למושג כלשהוא איננו תנאי הכרחי לסיווג לגיטימי ובר סמכא של אותו מושג, ושהמשפט הנושן לגבי פורנוגרפיה, ואולי גם אמנות - אני לא יודע להגדיר לך את זה, אבל כשאראה את זה אדע - לא מראה על מגבלת הידיעה שלנו, אלא להיפך, על התוקף הלגיטימי והמוצק של ידיעה שמבוססת על דוגמאות אינספור. יש לך ספק אם יצירה מסוימת היא אמנות? תראה לי אותה ובוא נתווכח, ואל תתחמק בטיעונים פילוסופיים של חוסר הגדרות. אלא אם בא לך לכתוב פורטרן על מיין פריים, סטייה לגיטימית אבל ארכאית למדי. |
|
||||
|
||||
יפה. אתה יכול להשתמש בזה כדי לשים בצד את חיפוש ההגדרה לאמנות כשהוא לצורך הבנת אידיאת האמנות, או כדי להסביר למה החתונה בכנא היא אמנות. אבל במקומות כמו "האייל" מחפשים הגדרה לאמנות יותר מכל כדי לנסות לשכנע שברודווי בוגי ווגי הוא כן או לא אמנות, כשהסיבה לויכוח היא שזו יצירה על אזור הגבול של התיחום הקונצנזואלי. אני חושב מזמן שהשאלות מהסוג הזה לרוב לא מעניינות, ושניסיון לענות עליהן לפי הגדרה הוא סרק, אבל לא ברור לי שרשתות עצביות הן טיעון חזק בעניין. |
|
||||
|
||||
אם אתה כבר מניח ש''ניסיון לענות עליהן לפי הגדרה הוא סרק'', אז אכן הטיעון שלי לא מוסיף לך הרבה. למי שעדיין חושב שסיווג על פי הגדרה הוא קריטריון חשוב ומעלה את הטיעון הזה בויכוח, אותו הטיעון שלי אמור ללמד שכדאי שיחשוב שנית. |
|
||||
|
||||
>> סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן אבל שורש הבעיה הוא שיש דוגמאות שהסיווג שלהן שנוי במחלוקת, לא? יש מי שחושב שמשתנה היא אמנות, ויש מי שלא, אז איך תסווג (בשלב האימון) משתנה? |
|
||||
|
||||
שים לב שהטיעון העיקרי שלי הוא לא שיש לי פתרון לשאלת "האם משתנה היא אמנות", אלא שמי שטוען שאי אפשר לדון בשאלה הזאת לפני שהגדרנו "אמנות" טועה. ספציפית לגבי השאלה שלך, אולי בכלל מה שראוי לשאול הוא - בהינתן לימוד על היסטוריה ענפה (בטרם משתנה), מה תאמר הרשת על משתנה. ויטענו אנשי ה-AI הקשה: אבל זה בדיוק הניסוי שעשינו, נתנו לאלפי רשתות כאלה (משוכנות היטב במוחות אנושיים) שלמדו על דוגמאות עד כה, את הדוגמית החדשה - משתנה - ושאלנו אותן האם זו אמנות. חלק טענו שכן, וחלק שלא. אולי טענת משנה חלשה יותר שעולה מהטיעון שלי, היא שטיעונים כמו "מאחר שהדוגמית החדש דומה למוצג שראיתי לפני שנתיים כאן ואכן, ולזה שראיתי לפני 4 שנים כאן וכאן וגו', ולכן גם זו אמנות" הם תקפים ומשמעותיים יותר מאשר "לפי מילון שטיינוביץ'-ולדיסימוביץ' לאומנות פלסטית לדורותיה, המשתנה עומדת בקריטריונים 2.א ו-4.ב.(3), ולכן מקומה אומנותה". |
|
||||
|
||||
אז אני מצטרף לטיעון של "אנשי ה-AI הקשה". |
|
||||
|
||||
ואני חוזר לטענה העיקרית שלי, מסכים שטענת המשנה לא מכריעה את השאלה. |
|
||||
|
||||
מסכים איתך שרשתות נוירונים יצרו דרך שמאפשרת (עקרונית) להכריע האם אובייקט מסוים הוא אמנות או לא, בלי לנסח הגדרה מדויקת ל''מה זה אמנות''. אני רק אומר שהדרך החדשה הזו לא שווה הרבה בעיניי במקרי הקצה, נוסח המשתנה של דושאן, שעליהם בני האדם ממשיכים להתווכח. |
|
||||
|
||||
אני מסכים שהדרך החדשה לא פותרת את בעיית הסיווג, היא רק ''פותרת'' או מורידה מהשולחן טיעון מקובל בקשר לבעייה, שמסיט את הדיון (הראוי לטעמי) במקרי הקצה להתפלספויות לא רלבנטיות. |
|
||||
|
||||
אין לי דרך להראות את זה אבל ההרגשה שלי שמי שעדיין מתווכח על המשתנה של דושאן זה בעיקר הקישונים של העולם, השוליים הנוקשים. והקישונים הם בעצם מהמילייה האומנותי. |
|
||||
|
||||
בצעתי חיפוש באתר ונראה לי שאת האנקדוטה הזאת עדיין לא ספרתי1, ולכן אספר אותה עכשיו. זה היה בשנות ה 60. קבוצה של סטודנטים נחה על הדשא באוניברסיטה העברית בירושלים. סטודנטית התקרבה לקבוצה ופנתה אליהם: אתם לומדים במקרה סטטיסטיקה? אחד הסטודנטים (לימים פרופסור עוזי סמילנסקי) השיב: אנחנו בכוונה לא לומדים סטטיסטיקה. (אני מקווה וגם בטוח שאיש לא נעלב.) 1 כיוון שמלאי האנקדוטות שאני זוכר בוודאי אינו אין סופי, כל פעם שאני עומד לספר אחת מהן אני בודק אם לא ספרתי אותה כבר, כי מאד סביר שכן. |
|
||||
|
||||
אתה יכול להסביר קצת יותר בעניין ה-xor? מהן אותן "רשתות של נוירונים לינארים" ומה הבדל ביניהן לבין הרשתות המודרניות? (זכור לי שבשעתי גם אני התאכזבתי מאד כשקראתי איפשהו על המגבלה ההיא). |
|
||||
|
||||
(זה באמת נושא *הרבה* יותר פשוט מהרושם שההסבר המסורבל שלי כאן עשוי ליצור...) פונקציית ה-xor היא פונקציה בוליאנית פשוטה שאת טבלת-האמת שלה אפשר לראות כאן XOR_gate [Wikipedia]. נגיד שרוצים ללמוד אותה: הקלט יהיה טבלת האמת שמופיעה בערך (בסה"כ 4 דגימות), ואחרי האימון - אם הוא נעשה בהצלחה - תוכל להציג לרשת זוג של ערכים בוליאנים, היא תחזיר את התוצאה של הפעלת xor עליהם (למשל עבור הקלט (0,0) היא תחזיר 0, ועבור הקלט (0,1) היא תחזיר 1). אפשר לחשוב על הבעיה כבעיית קלאסיפיקציה, בה על הרשת להתאים לזוג-סדור של ערכים בוליאניים את התווית "0" או את התווית "1". מודל קלאסיפקציה לינארי, הוא כזה שינסה לפתור את הבעיה על ידי מציאת "מישור מפריד" במרחב הקלט שמצד אחד שלו מצויים כל הקלטים להם מתאימה התווית "0" ומצידו אחר מצויים כל הקלטים להם מתאימה התווית "1". פונקציות בוליאניות כמו and או or אפשר ללמוד באופן הזה, אבל את הפונקציה xor אי אפשר (המחשה). "מסתבר" שאם מרכיבים הרבה מודלים לינארים קטנים (לא משנה כמה מהם, ולא משנה איך מרכיבים אותם) - התוצאה המתקבלת היא מודל לינארי. לכן רשתות מסובכות וגדולות כרצונך המורכבות אך ורק מ-"נוירונים לינאריים" לעולם לא תוכלנה ללמוד פונקציה פשוטה כמו xor. הנושא והמציאות ההיסטורית קצת מורכבים יותר: פרספטרונים - גם בשנות השישים - הם לא "נוירונים לינארים", למרות שבפני עצמם הם כן "מודלים לינארים". אז רשת של פרספטרונים בעלת-שכבה אחת לא יכולה ללמוד את פונקציית xor, אבל רשת בעלת שתי שכבות של פרספטרונים כן יכולה - ולמעשה יש "משפט אוניברסליות" שאומר שרשת כזו יכולה ללמוד כל פונקציה סבירה. |
|
||||
|
||||
שוב, תודה רבה. |
|
||||
|
||||
אני מנצלת את הדיון לשאלה לגבי Deep Dream, אפשר? Deep Dream היא התוכנה של גוגל שהופכת תמונות לציורים סוריאליסטים עם פרצופי כלבים שצצים בכל מקום. התוכנה הזאת מבוססת על Deep Learning שבבסיס הלמידה שלה היה מאגר גדול של תמונות כלבים ולכן היא רואה כלבים בכל דבר. אבל המושג של Deep Learning איך נראה כלב שונה מאד מהמושג שלנו, וכשמדפיסים תמונות של הפיקסלים של המשקלות שהביאו אותה להחלטה שזה כלב, בתמונות האלה אין שום דבר שמזכיר לנו כלב. איך Deep Dream יודעת לצייר כלב שגם אנחנו מזהים? |
|
||||
|
||||
מאד בגדול: ככל הנראה יש כאן שימוש ברשתות נוירונים שנקראות GAN - Generative adversarial network. רשת שכזו היא מעין מנגנון "מתחרה" לרשת נוירונים קלאסית - הרשת הקלאסית מאומנת לסווג תמונות ('כלב', 'חתול,' או 'כרוב'), ורשת ה-GAN מאומנת ביצירת תמונות. עכשיו, עושים ביניהן סוג של אימון הדדי, כשהרשת היוצרת מייצרת תמונה, הרשת המסווגת נותנת לה ציון ('כמה קרובה התמונה שיוצרה לתמונת כלב'), ולאור הציונים הרשת יוצרת התמונות מתעדכנת ולומדת שוב ושוב, עד שהיא מייצרת תמונה שציון ה'כלביות' שלה מספיק. שלא במפתיע, מאחר והרשת המסווגת למדה לסווג על פי תמונות אמיתיות של כלבים1, אכן התמונות שנוצרות בסוף תהליך הלימוד-יצירת תמונה-סיווג-לימודיצירת תמונה-סיווג-... מכילות תמונות או תתי תמונות שמאד דומים לכלבים. רק כדיסכליימר - אכן יש ענף כיום שמשתמש באותן רשתות GAN, כדי "לרמות" את הרשת המסווגת - ז"א ליצור תמונות ש*לא* מכילות כלבים, אבל יזוהו ככלבים, או ליצור תמונות של כלבים שיזוהו כדובי פנדה וכדומה. 1 נשאיר רגע בצד הטכני את הדיון ב"המושג של Deep Learning איך נראה כלב שונה מאד מהמושג שלנו" - אחרי שהרשת למדה, היא ממש טובה בזיהוי כלבים2. |
|
||||
|
||||
הגיוני שיש שם משהו שיודע לצייר. מצד שני ראיתי עכשיו עוד תמונות מתוך השכבות והן הרבה יותר טובות ממה שראיתי קודם ואפשר להבין מה רואים, אז ההנחה שלי לא הייתה כל כך נכונה. יכול להיות שנכנסים לאחת השכבות הקודמות, וכל עצם שהיא זיהתה אומרים לה ''נכון, לכי על זה''. |
|
||||
|
||||
סיפור קצר, משעשע ומטריד, בהקשר לסכנות הכרוכות בבינה-מלאכותית: Sort by Controversial. |
|
||||
|
||||
סכנות מרשת נוירונים? בינתיים דברים כאלו נעשים בצורה ידנית ויעילה מספיק. המחשבים כאן הם לא מה שמדאיג אותי. מהבחינה הזו הסיפור לא נשמע אמין. |
|
||||
|
||||
לא מספיק קצר, משעשע בתחילתו, ואז מורח את הרעיון הרבה יותר מדי. הוא כן סיפק לי לפחות הפתעה לא שגרתית - לראות את 'מנה מנה, תקל ופרסין' באמצע סיפור באנגלית היה מאד לא צפוי. |
|
||||
|
||||
אני הופתעתי לגלות את הביטוי באמצע שיר בגרמנית. (דלגו ל-3:30 אם אין לכם סבלנות לחפירה הצלילית - לא מהמעניינות ביצירות הלהקה. הנה המילים הקצרות, עם תרגום לאנגלית, למי שרוצה לנסות לפרשן מה קשורה הכתובת על הקיר. אני לא מבין.) |
|
||||
|
||||
כמעט 100 מיליארד דולרים הושקעו עד כה בפיתוח מכונית אוטונומית, ואפשר לשער שעד לפיתוח מכונית עצמאית ממש (מה שנקרא שלב 5) הסכום יוכפל פי כמה וכמה (שאלה ראשונה: פי כמה, להערכתך? ומה הניחוש לך ללו"ז?1). הסכום הזה לא מאד מפתיע אותי כי הבנתי שמדובר על בעיה קשה באמת (ותודה ללקס פרידמן על הפודקסטים). בעיה שנראית להדיוט כמוני פשוטה מזאת בסדרי גודל היא ויסות דינמי2 של רשתות הרמזורים באזורים עירוניים. אני יודע שכמה חברות מתעניינות בנושא, וכבר ב 2014 טענו באונ. טורונטו שהבעיה פתורה מה שמשאיר אותי תמה למה היישום לא נראה בשטח. כך, לדוגמא, בעקבות google maps ובעיקר מאז רכישת waze יש לגוגל מאגר מידע עצום עבור שלב האימון של המערכת, ונראה שהם היו יכולים במאמץ יחסית קטן לייצר משהו בעל ערך גבוה לציבור, וערך מוסף עצום לגביהם כאשר המכוניות האוטומטיות שלהם תגענה לכבישים עם קצת ידע פנימי על ההתנהגות הצפויה של הרמזורים. ואם לא גוגל, ודאי שמחלקות ה-AI באוניברסיטאות וגופי מחקר יכולות לרכוש הרבה יוקרה - וחשוב יותר: ומענקים - אם יקלו במשהו על העומס הבלתי נסבל של התנועה העירונית. אמנם בניגוד לגוגל אין להם נתוני אמת, אבל נראה לי שזה תחום בו סימולציות יכולות להפיק את הנתונים באמינות גבוהה מאחר שיש הרבה פחות גורמים לא צפויים מאשר במכונית האוטונומית, כך שחלק גדול מתקציב הפיתוח - איסוף הנתונים לאימון, נחסך. שאלה שניה: אני צודק? אני מבין שההשקעה הציבורית הנדרשת כדי לחבר את כל הרמזורים לרשת אינה קטנה, אבל גם חיבור של חלק מהרמזורים יכול לעזור כך שהיישום יכול להיעשות בהדרגה, כשהמערכת היא זאת שממליצה על סדר חיבור הרמזורים (ברור שיש כאלה שמשפיעים יותר על נפח התנועה הכללי). מאחר וכל המחשבות האלה אינן באות לידי ביטוי במה שאני רואה סביבי - ויש לי הרבה זמן להסתכל סביב כשאני תקוע בפקק - השאלה השלישית שלי היא איפה אני טועה כלומר, איפה מסתתרים הקשיים. השאלה הרביעית שלי קשורה רק בעקיפין: מאיפה מגיעה החוצפה של נתיבי איילון להפיק את תשדירי הפרסומת שלהם לגבי העתיד, עם המסלולים המתחלפים, החניונים מחוץ לערים ונת"צ שאו-טו-טו יהפכו את חייה של נתי קלוגר לטובים יותר, בשעה שבעבר ובהווה הם לא מצליחים אפילו לתחזק את התמרורים המוארים שלהם? יש גם שאלה חמישית: איך זה שהפרסומאים עוד לא הבינו שחוכמות מאולצות כמו "אתה הבנת, יציאה.. איילון..." הופכות להיות מעיקות ממש בפעם השבע מאות שאתה נתקל בהן, כשכל מה שרצית הוא לראות את פתיחת החדשות, אבל דומני שהטרדתי אתכם מספיק לפעם אחת. למותר לציין שהשאלות אינן מופנות דווקא לעומר... ______________ 1- אולי אפשר להציע למערכת שאחד הסקרים הבאים יהיה ניחוש של התאריך, ובעוד X שנים יוכרז הזוכה. 2- אני לא רוצה להאריך, אבל "דינמי" יכול להיות דינמי ממש בין אם מדובר בגוגל, כי הם מקבלים בזמן אמת נתונים מוויז ובין אם מדובר במצלמות שיפוזרו בצמתים מסויימים, או "חצי דינמי" בהתאם לשעות היממה, רחובות חסומים, הפגנות וצרות דומות. מי יודע, אולי יתגלה אפילו שחסימה של איזה כביש יכולה להביא תועלת (ע"ע תגובה 428114)? |
|
||||
|
||||
רק לגבי אחת מהשאלות שלך - פתרונות רשתיים לניהול תעבורה עירונית (לרבות מה שקורה במימד השלישי של רחפני המשלוחים המתרבים) סובלים משתי בעיות עיקריות: הגנת סייבר ומקרי קצה של בטיחות תעבורה (בפרט לכאלה שאינם חלק מהמערכת או "קואופרטיביים"). |
|
||||
|
||||
חשבתי שכבר היום יש פיקוח רשתי על פעילות הרמזורים אלא שהוא מתבצע ידנית וההתערבות היא ארוע נדיר. יש קושי אינהרנטי בהקמת VPN או איזשהו קשר מאובטח אחר שיקשר רמזורים עם המרכז? לא הבנתי את העניין של הבטיחות במקרי קצה. בכל מקרה הרמזורים צריכים להיות מסוגלים לקבל פקודה שתחזיר אותם לעבודה במצב ברירת המחדל שלהם - כלומר לעשות מה שהם עושים היום - אם מתעוררת בעיה רצינית. |
|
||||
|
||||
אני לא מבין ב AI אבל מבין בסכומים. אף עסק אמריקאי לא ישקיע מיליארדים במשהו שייתן פירות בעוד חמישים שנה. אפילו לא אילון מאסק. לכן לפי האינדיקציה הכספית יש להם וודאות גבוהה שהמכונית האוטונומית כבר תישא פרי בעוד 15 שנה לכל היותר, וסביר מאוד שפחות. כיוון שנראה לי שמכוניות אוטונומיות יתפקדו בצורה הטובה ביותר כאשר כל שאר המכוניות בכביש הן אוטונומיות, אני מהמר שבעוד 20-25 שנה כבר יהיה לפחות מטרופולין אחד בעולם שכניסת מכוניות נהוגות בידי אדם אליו תאסר1. _____________ 1 תגובה 708081 ההימור שלי הוא על סינגפור |
|
||||
|
||||
נראה שאילון מאסק מתקשה גם לצפות שנה קדימה. בדיוק לפני שנה הוא צייץ שהוא שוקל להפול את טסלה לחברה פרטית בשווי $420 מליון, ויש לו מימון בטוח. |
|
||||
|
||||
כשאמרתי אילון מאסק התכוונתי לחזון המאדים שלו. אגב- ההתיחסות שלך לכשלון לא נכונה. הכשלון הוא חלק משמעותי ובלתי נפרד מהנסיון להצליח. סטיב ג'ובס לא נכשל? הוא נכשל בענק! אבל בסופו של דבר הוא עשה מהפכה במוצרי האלקטרוניקה הניידים. |
|
||||
|
||||
לא $420 מליון, אלא $420 למניה. |
|
||||
|
||||
אני מסכים ש''אף עסק לא ישקיע מיליארדים במשהו שייתן פירות בעוד חמישים שנה'' אבל בניגוד לפוליטיקאים עסקים עלולים לטעות. |
|
||||
|
||||
"אולי אפשר להציע למערכת שאחד הסקרים הבאים יהיה ניחוש של התאריך [של פיתוח מכונית עצמאית ממש], ובעוד X שנים יוכרז הזוכה" רק שנצטרך סקר מקדים על מה ייחשב בדיוק למאורע המכונן. מצד אחד, בכמה מקומות בעולם כבר נוסעות על כבישים רגילים כמה מכוניות אוטונומיות לחלוטין, דה פקטו, כך שלא מופרך לומר שזה כבר קרה. מצד שני, נשמע לי סביר שעוד 15 שנה עדיין תהיה איזו מדינה מתוקנת בעולם שתדרוש נהג אנושי לפחות כגיבוי, וזה ייחשב מיושן אבל לא לחלוטין בלתי-מובן, ובמצב כזה לא יהיה מופרך לומר שזה עדיין לא קרה. |
|
||||
|
||||
מקורותי המקורבים לתחום הרבה יותר פסימיים ממך. על פיהם, לא סביר שתוך 15 שנה תהיה אפילו מדינה מתוקנת אחת שבה רכב אוטונומי יהיה הנורמה. |
|
||||
|
||||
זה לא נראה לי קושי של ממש. המערכת יכולה להחליט מה יהיה הסף המכריע, למשל: מכירת המכונית המיליון בעולם המערבי שמותר לה לנסוע בכל דרך סלולה ללא נהג בעל רישיון (אני מניח שהנתון הזה יתפרסם ברבים עם הרבה רעש וצלצולים) או משהו דומה. אגב, יהיה נחמד אם נגיע למצב בו לילד מתחת לגיל 14 מותר לנסוע במכונית לבדו, אבל כשהוא מגיע הביתה הוא צריך לחכות למבוגר אחראי שיסיע אותו במעלית! |
|
||||
|
||||
מאיזה גיל סומכים על ילד שייסע באוטובוס לבד? |
|
||||
|
||||
באוטובוס יש תמיד לפחות מבוגר אחד (ליד ההגה) כך שאין הגבלת גיל אמיתית לנוסעים (זאת המסקנה שלי מהסעיף: "ילדים עד גיל 5 פטורים מתשלום עבור נסיעה באוטובוסים, *כאשר הם נוסעים בליווי נוסע בעל כרטיס נסיעה תקף*". |
|
||||
|
||||
"אגב, יהיה נחמד אם נגיע למצב בו לילד מתחת לגיל 14 מותר לנסוע במכונית לבדו", אולי אם נהיה באוטופיה כזו שהאפשטיינים שרוצים להשביח את הגזע האנושי לא יעסיקו האקרים. |
|
||||
|
||||
הפיקסלים ששלחתי בקושי הספיקו להתייבש, וכבר אני קורא שהרעיון קרוב למימוש. |
|
||||
|
||||
ובעניין דומה : קראתי בידיעות של סוף השבוע תיאור של עבודת המפעילים של כיפת ברזל (ההדגשות שלי): - - - ציטוט - - - ... המכ"מ מזהה את המטרה מרגע השיגור שלה. צוות המנ"י, מרכז ניהול יירוט, מתחיל בתהליך הערכת מצב. הם יושבים בקרון קפוא עם מזגנים מעל הראש, לבושים במעילים וכובעי גרב מחממים, מול מסכים עם מטרות מרצדות שנעות מכיוון עזה לעברנו, ויש להם שניות ספורות לקבל החלטה מה לעזאזל לעשות. כל שיגור והמאפיינים שלו. למשל, כמות המטרות, כלומר הטילים ששוגרו לעבר ישראל. האם הם נעים לשטחים מיושבים או מתקנים חיוניים? מה תצורת המעוף הבליסטי? המחשבים מספקים נתונים והם נקראים במהירות. בסוף, מפקד המנ"י מחליט אלו מטרות ליירט. כל מטרה והמספור שהמחשב נתן לה. "מטרות 6 ו־2 נדרשות ליירוט", הוא אומר בקול שקט, והחייל המיירט שם את העכבר על המטרה, לוחץ קליק ימני, בוחר באופציית היירוט ולוחץ קליק שמאלי. טיל היירוט משוגר מאחד ממשגרי הסוללה הפרוסים בשטח, הרחק מכאן, ומכאן והלאה אפשר רק להחזיק אצבעות. "עד עכשיו, רביעי בערב", אומר סרן בן־עזרי, "היו לנו 18 יירוטים, שזה 94 אחוז מסך המטרות שנדרשנו ליירט. עשינו את זה עם 32 מיירטים". "הסיפוק עצום", הוא אומר, "כי כל אחד מבין מה המשימה ומה המשמעות של חדירת טיל. וכשזה קורה, כשיש החטאה, זליגה, נפילה ויש נפגעים, זה מתסכל מאוד. אבל אסור לנו להתבלבל. אנחנו יושבים דרוכים מול המסכים בקרון, לא מורידים מהם את המבט לרגע, כל שנייה שאיבדת שם במעקב אחר המטרה היא שנייה שלא תחזור. משמרות סביב השעון, בלילה, לפנות בוקר, וגם כשיש פספוס אסור לנו להיות מושפעים. אנחנו נדרשים להמשיך, לא לעצור, כי שם המשחק הוא דריכות, חדות ומיומנות. שלוש־ארבע שעות כל משמרת וכל הזמן הזה עיניים על המסך. זמני התגובה הם של שניות בודדות, כך שצריך רמת ריכוז גבוהה מאוד. תבין, זו מערכת מעולה, משוכללת, חכמה, אבל היא לא פועלת על אוטומט. אתה לא יכול ללחוץ על 'הפעל' וללכת לישון. היא בנויה על שיקול דעת אנושי. האנשים פה הם אלו שעושים את ההבדל"... - - - סוף ציטוט - - - וחשבתי על האנכרוניזם המשווע: בימים בהם deepmind מנצחת את טובי השחקנים ב starcraft ii, המשחק "צינורות נפץ מעופפים" שפשוט ממנו בכמה וכמה סדרי גודל1 עדיין משוחק בידי תרכובות פחמן על שלל הבעיות החישוביות המוכרות שלהן, וזאת למרות שמחיר ההפעלה במונחי כ"א איכותי הוא גבוה, והטעויות עלולות לעלות בחיי אדם. AI יכול להיות יעיל לא רק בקשר לקבלת ההחלטות בסוללה אחת, אלא גם בקשר לתיאום וחלוקת האחריות בין כמה סוללות ואפילו בין מערכות יירוט שונות כמו בין כיפת ברזל לשרביט קסמים. סיבות אפשריות שעולות על דעתי: * הבעיה הפסיכולוגית: לפי מדגם קטן מאד2 יש לאנשים רתיעה כמעט אוטומטית מהרעיון גם אחרי שאני מזכיר שחמט, גו, פוקר וסטארקראפט, וזה עוד לפני שחושבים על השאלה איך להסביר לציבור שהטיל שמחק גן ילדים שלם לא יורט מסיבות שקשה להבין אותן. נראה לי שגם אם הסטטיסטיקה תוכיח ששיעור היירוטים המוצלחים עלה מ-90% ל-95% או אפילו ל-98% זה לא יעזור, ומי שמודע להתנגדות הציבורית לתחנות כוח גרעיניות בטח מבין למה אני חושב כך. משום מה שטויות בנוסח המקובל לפיהן "כל מי שנהרג, נהרג במאה אחוז" מתקבלות טוב ע"י ציבור רחב, להפתעתי כולל אנשים משכילים. * הבעיה האתית: העברת האחריות להגנה על חיי אדם למערכת AI, ובייחוד לכזאת ששיקוליה לא תמיד ברורים, היא מהפכה שזקוקה לבחינה מעמיקה למבחינה אתית, וקשה לדעת אם אסא יגיד כשר. * היסטורית-מדינית: מהסיבה הקודמת ישראל לא רוצה להירשם בספרי ההיסטוריה בתור הראשונה שהעבירה את האחריות להגנה על חיי תושביה ל-AI, או כמי שהיתה הראשונה שהשתמשה ב-AI לקבלת החלטות צבאיות מבצעיות, גם אם לצרכים הגנתיים לחלוטין. * סיבה טכנית: אין מספיק נתונים בשביל מאגר טוב לאימון המערכת, וגם צה"ל, כמו משרד התחבורה, לא מאמין בסימולציות (מהעיניים האלה אולי הסבב האחרון לא נבע מהעלבון האישי של מר נתניהו על הירי לעברו באסיפת פעילי הליכוד באשדוד, אלא הוא יועד לצרכי איסוף מידע עבור קובץ האימון. הבעיה היא שכמה מאות טילים עלובים לא ממש יעשו את העבודה, כך שכנראה החמאס טרף את הקלפים כשנמנע מלתרום כמות נתונים משמעותית יותר. מניאקים). אלה הסיבות שעולות בדעתי, אך הן לא לגמרי משכנעות אותי, כך שכנראה יש סיבות טובות יותר. קדימה, נא האירו את עיני. בפרק הבא: פרוייקט "מחט בערימת שחת": איך AI יכולה לזהות אתרי שיגור טילים ע"י סריקות תצ"א (ואגב כך פותחת פרק מלהיב במירוץ נגד הטעיות מכוונות - אלא שכאן התגובה אינה צריכה להיות מיידית, כך שהמערכת תסתפק בהמלצות לבחינה נוספת ע"י עין אנושית, אולי אחרי צילום ברזולוציה מקסימלית של הנקודות המסומנות כחשודות ע"י התוכנה). זאת בעיה אקוטית לעתיד הנראה לעין, וההישג כביכול בסבב האחרון בחיסול כמה חוליות שיגור לא משנה שום דבר מהותי. הוא (כמעט?) לא השפיע על השיגורים, ובכל מקרה אפשר לצפות שעד הסבב הבא גם הג'יהאד יגלה את המחיר הזול של טיימר בעלי אקספרס; החמאס והחיזבאללה כבר יודעים זאת - פחות מ-3 דולר מחיר קמעונאי. אחרי הפרויקט הזה יגיע גם פרוייקט "תצפיתניות - למטבח!" שהוא בעל סיכויי יישום גבוהים מכל השאר בגלל תמיכה גורפת של הרבנים ממכינת עלי. ֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹֹ_______________ 1- שיחקתי משהו מאד דומה באטארי באמצע שנות השמונים. על ההישגים שלי אומר רק שלמזלם של תושבי העוטף אני לא אחד מאלה שצריכים ללחוץ על העכבר. 2- ההודעה הזאת היא במידה רבה ניסיון להגדלת המדגם. |
|
||||
|
||||
אני מאד מופתע שההחלטה איזה טיל ליירט נקבעת ידנית/אנושית. נראה לי שזה קצת פרמטר נגזר של אופי הבעייה - לו היתה מערכת שמיירטת מרגמות/קסאמים בעוטף עזה (שזמן ההתרעה שלהם פחות מעשר שניות למיטב הבנתי), היה ברור מראש שאלו זמני החלטה קצרים מדי עבור מחליט אנושי, ואז היו מוציאים אותו מהלופ. דוקא בגלל שיש מספיק זמן 'ספייר' לבזבז, נותנים למפעיל האנושי אכן לבזבז אותו. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |