|
||||
|
||||
הצורה הפונקציונלית של רגרסיה לוגיסטית היא הרכבה של העתקה-אפינית עם פונקציית סיגמואיד, ואפשר לייצג אותה בקלות על ידי "רשת" בעלת נוירון יחיד עם אקטיבציה סיגמואידית. אימון של הרשת תוך שימוש ב-cross-entropy כפונקציית שגיאה, תוביל בדיוק לאומדן הנראות המירבית של מקדמי הרגרסיה. רשתות גדולות המשמשות לקלסיפיקציה בינארית אפשר להבין כהרכבה של חלק מסובך שלומד ייצוג מוצלח של התצפיות, עם חלק פשוט ששקול לרגרסיה לוגיסטית הקושרת בין הייצוג הנלמד לערך המטרה. |
|
||||
|
||||
ואללה, הסיגמואיד של פונקציית logit באמת יכול בדיוק להתלבש על פונקציית האקטיבציה של נוירון, אז זה מסתדר. אבל מה עם מודלים לינארים מוכללים אחרים, למשל רגרסיה פואסונית? או אפילו עם רגרסיה לינארית רגילה? איך מתמודדים ברשתות נוירונים עם פונקציות שהטווח שלהן לא חסום? |
|
||||
|
||||
כאשר ערך-המטרה אינו חסום (כמו במקרה של רגרסיה לינארית) המצב פשוט במיוחד: לא משתמשים באף פונקציית אקטיבציה, והשכבה האחרונה (והיחידה, במקרה של רגרסיה לינארית) היא רק פונקציה אפינית. ככלל אצבע, כאשר מדובר ברשתות-נוירונים - ייצוג הוא אף פעם לא בעיה. הדימוי של רשת נוירונים כ-"אוסף של פונקציות זהות מסודרות בשכבות" הוא מאד מטעה. רשתות feed-forward (אני מתאר לעצמי שעליהן אתה חושב כשאתה חושב על רשתות-נוירונים) מייצגות פונקציות באמצעות מבנה (computational graph) שיכול להיות מורכב מאד, הרבה יותר מסתם "שכבות". וכאמור רשתות feed-forward הן רק חלק מהסיפור, ובהחלט לא הסיפור כולו. אבל אפילו אם מגבילים אותן למבנה של שכבות, ואפילו אם מגבילים את מספר השכבות ל-2 - הן עדיין יכולות לייצג כל פונקציה. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |