|
||||
|
||||
אם תרצה, אני אשמח להסביר לך מה פירוש ''קורלציה''. |
|
||||
|
||||
כדי לפשט את ההסבר, נניח שמדובר במשתנים "רציפים", כלומר כאלו שיש להם (עקרונית) מספר אינסופי של ערכים אפשריים. לדוגמא: גובה, נפח חשבון בנק, IQ (למרות שבכל המקרים האלה, רמת הדיוק של מדידות בעולם האמיתי אינה מאפשרת אינסוף ערכים). משתנים אחרים (כמו - שנות לימוד, מספר ילדים) הם "בדידים", ובדרך-כלל אפשר לטפל בהם באותם כלים. ובכן, הסיפור הבסיסי כולל שני משתנים כאלה, נאמר X ו- Y. לכל אדם במדגם שלנו יש ערך-X וערך-Y (למשל, ציון במבחני אכילת גזר, בין 1 ל- 100, ומהירות תגובה לבדיחה מסויימת, בשניות). לצורך העניין אנחנו מניחים בצד את כל שאר התכונות המתארות את האדם הזה, ומתרכזים רק ב- X ו- Y שלו. כל אדם הוא נקודה במרחב הדו-ממדי של נתוני המדגם. כעת רוצים לחשב מתאם. שמו המלא של המתאם הוא מקדם-מתאם-ליניארי, להבדיל ממקדמי מתאם אחרים, מסובכים יותר. *נניח* שכל אדם מחשב את ציון ה-Y שלו על-ידי חיבור שלושה גורמים: מרכיב קבוע a (משותף לכל בני-האדם באשר הם שייכים לאוכלוסית המחקר); מקדם קבוע בשם b שבו הוא מכפיל את X הפרטי שלו (גם a משותף לכולם); ותוספת אקראית (בעלת התפלגות נורמלית (כי כל דבר (כמעט) מתפלג נורמלית, ובלי ההנחה הזו קשה יותר להמשיך בחישובים). סיכום: Y=a+b*X+error (לגורמים האקראיים שאינם קשורים ל- X, אלו שמייחדים את בני האדם זה מזה ומאפשרים אינדיווידואליזם, סטטיסטיקאים אוהבים לקרוא error). ההנחה הזו, ש- Y=a+b*X+error, נקראת *מודל*. אפשר להמציא גם מודלים אחרים (למשל, Y=a+b*X+c*X*X+error, או דברים יותר גרועים), אבל זה סיפור (קצת) אחר. כל מה שנשאר לעשות הוא לחשב את a ו- b. כמובן שאי-אפשר באמת *לחשב* אותם (הם נתוני רקע של העולם, ואין לנו שום אפשרות לחקור אותם ישירות), ולכן מסתפקים ב*אמידה* שלהם. כלומר - אספנו מדגם בגודל מסויים, ומונחים לפנינו כך-וכך זוגות X,Y. אפשר לחשב מהם המספרים a ו- b שיסבירו את הנתונים האלה באופן הטוב ביותר. (מבחינה גרפית, זה כמו למצוא את הקו הישר שיעבור קרוב ביותר לנקודות המדגם (הקו הזה ממזער את סכום ריבועי המרחקים)). אחרי השלמת המשימה הזו, "מנרמלים" את b (מחלקים בסטיות תקן כיד המלך) והתוצאה היא *מקדם המתאם*. המקדם הזה הוא מספר, בין מינוס-אחת לאחת, שמצביע על חוזק הקשר בין X ל- Y. אם המקדם קרוב לאפס, אין כמעט שום קשר; אם המקדם קרוב לקצוות, הקשר חזק מאד. נניח שזמן התגובה הממוצע לבדיחה שלנו הוא 2.7 שניות. אם מבקשים ממני להעריך מה יהיה זמן התגובה של אדם שאני לא מכיר, התשובה הבטוחה ביותר (במובן מאד מדויק, של מזעור תוחלת הריבוע של השגיאה) היא 2.7. אם, בנוסף, אני יודע שהציון הממוצע במבחני אכילת גזר הוא 60, ושהמקדם b (לפני הנרמול) הוא 0.1, אז ידיעת X יכולה *לשפר* את יכולת ההערכה שלי. אם אינני יודע מה ה- X שלך, אני מעריך את זמן התגובה ב- 2.7. אבל אם קיבלת 70 במבחני הגזר, כדאי לי לשנות את ההערכה ל- 3.7 (תוספת של 10 נקודות מעל הממוצע, כפול המקדם). מאד יתכן שגם כאשר מקדם המתאם חיובי, ואפילו קרוב ל-1, יהיו אנשים בעלי ציון גזר נמוך וזמן תגובה גבוה, ולהיפך. אבל הם יהיו מעטים, והרוב הגדול של האוכלוסיה יתאים למגמה הכללית. (זו תשובה מאד חלקית; התעלמתי לחלוטין משאלות של מובהקות). |
|
||||
|
||||
יש גם משתנים מקריים בדידים המקבלים מספר אינסופי של ערכים אפשריים. למשל חשבון הבנק שנתת כדוגמה. אתה מן הסתם יודע את זה - אני מתקן למקרה שמישהו יקרא ויחשוב בטעות שמשתנים בדידים הם משתנים שמקבלים מספר סופי של ערכים. |
|
||||
|
||||
במשתנה שעשוי לקבל ערכים שלמים (בסקלה כלשהי) אבל רבים במספר, כדאי כמעט תמיד לטפל כאילו הוא רציף. אי אפשר לבצע מבחני חי-בריבוע על סכומי כסף בחשבון בנק. |
|
||||
|
||||
. חשבתי שאנחנו מדברים על חינוך, על בית הספר בו לומד אריאל וישנה ועל עתידו !? לא חושב שאריאל מבין מה שנדון כאן כעת. ו/או מעניין אותו. |
|
||||
|
||||
. האם שאלתם את עצמכם, לאיזה מטרה הוא הציב את סיפורו באייל ? |
|
||||
|
||||
כי הוא גרפומן חולה פרסום? |
|
||||
|
||||
כדי להוות בסיס לדיונים מעניינים? |
|
||||
|
||||
יש לי הרגשה, אמנם בלתי מבוססת, שעוזי וטלי ו.1 מסוגלים לדאוג לאינטרסים של מחבר המאמר. יש לי הרגשה מבוססת עוד פחות שאם הוא לא מבין משהו מהתגובות ומבקש הסברים, הוא לא מקבל סטירת לחי אלא הרצאה בת שעתיים וגם כמה תרגילים ברגרסיה רבת-משתנים. וההרגשה הכי משונה שיש לי היא שהוא לא רואה את כל אלה כעונש. משפחה מוזרה. ___________ 1- לידיעתך: הם ההורים שלו |
|
||||
|
||||
דיוני off topic הם בד"כ עניין מבורך באייל. |
|
||||
|
||||
אם תיענה לבקשת האלמוני האחר, אנא כלול בהסבר שלך למה מתכוונים כשאומרים משפט בנוסח "הגובה מושפע מהתורשה ב 30%, מהתזונה בגיל הרך ב 40% והשאר גורמים לא מזוהים". |
|
||||
|
||||
בהמשך לתגובה הקודמת, משפטים כאלה מופיעים כאשר מעורבים בבעיה כמה גורמים מסבירים. כדי לאמוד את זמן התגובה Y לבדיחה (נחש של מי), אנחנו לא מסתפקים במבחני אכילת גזר (X1). עורכים גם מבחני המלטות מאולמות דחוסים (X2) וסיבולת (X3). שוב מניחים שהמודל ליניארי (כלומר, Y הוא קבוע, ועוד מקדם מסתורי כפול X1, ועוד מקדם כפול X2, ועוד מקדם כפול X3, ועוד גורם שגיאה פרטי; כל ארבעת המקדמים משותפים לכל האוכלוסיה). אחרי שנאסוף נתונים מאלף פתאים-מתנדבים, אנחנו יכולים לאמוד את מקדמי המתאם ובכך להציג מודל לא-רע להערכת Y; המודל ליניארי (כי כך הנחנו), ועכשיו אפשר להציב בו מקדמים מפורשים - ארבעת המספרים שממזערים את סכום ריבועי השגיאות. כמקודם, הצבה במודל היא צד אחד של הסיפור (הצד הפרקטי, של הערכת Y פרטנית). כדי לפרסם מאמר ב"הארץ שלנו", צריך לנרמל את מקדמי המתאם ולהעלות אותם בריבוע (ככה.) אם ריבוע המקדם של X1 שווה ל- 0.30, ריבוע המקדם של X2 שווה ל- 0.40 (אני מרמה כאן; נניח שיצא 0.40 אחרי שזרקנו מ- X2 את המרכיב ש"מקביל" ל- X1 ונשארנו עם המרכיב ה"מאונך"), וריבוע המקדם האחרון הוא 0.1, נדווח לעיתונות ש"זמן התגובה מושפע ב- 30% מיכולת אכילת הגזר, ב- 40% מיכולת ההמלטות וב- 10% מן הסיבולת". בעיתונות המקצועית ננסח זה אחרת לגמרי: "30% מן השונות בזמן התגובה מוסברים על-ידי השונות ביכולת אכילת הגזר, 40% על-ידי השונות ביכולת ההמלטות, ועוד 10% על-ידי השונות בסיבולת". הנחת היסוד היא שהשונות בין בני-אדם היא דבר מזיק (למודלים שלנו), וצריך להסביר איך השונות הזו התגנבה לשם. ככל שנצליח להסביר חלק גדול יותר ממנה בכך שנתוני הרקע (X1, X2, X3) שונים, מצבנו טוב יותר. (גם זו תשובה חלקית, בעיקר מאותה סיבה - חסר הקשר למובהקות). |
|
||||
|
||||
תודה. שמתי לב שאתה לא מדבר בכלל על השאלה עד כמה הנקודות יוצאות קרובות לאותו "קו ריבועים מינימלי" (ישר אם מדובר על שני משתנים), כלומר מהו אותו סה"כ הריבועים - או שמא הממוצע שלהם - שנותר אחרי שנמצא הקו האופטימלי. האם זה אותו "קשר למובהקות" שאתה מזכיר? האינטואיציה שלי אומרת שאם הוא יוצא מספר גדול כנראה מוטב לזרוק את המודל לפח ולחפש אחר. |
|
||||
|
||||
יש קשר למובהקות, אבל סכום הריבועים הוא בעצם עניין פשוט יותר. אם היו אוסרים עלינו מסיבות פוליטיות להשתמש במשתני ה-X, זה היה כמו לאלץ קו מקביל לציר(י) ה-X, ואז סכום הריבועים הוא השונות של Y. כל משתנה שנחלץ מן האיסור הזה ומשתתף במשחק, משפר את הקו ומקטין את סכום הריבועים. אחד פחות ה*יחס* בין סכום הריבועים בלי X1 לבין סכום הריבועים עם X1 הוא בדיוק "אחוז השונות המוסברת" על-ידי X1. ככל ש- X1 מצליח להוריד יותר את סכום הריבועים, הוא מסביר טוב יותר את השונות. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |