|
כדי לפשט את ההסבר, נניח שמדובר במשתנים "רציפים", כלומר כאלו שיש להם (עקרונית) מספר אינסופי של ערכים אפשריים. לדוגמא: גובה, נפח חשבון בנק, IQ (למרות שבכל המקרים האלה, רמת הדיוק של מדידות בעולם האמיתי אינה מאפשרת אינסוף ערכים). משתנים אחרים (כמו - שנות לימוד, מספר ילדים) הם "בדידים", ובדרך-כלל אפשר לטפל בהם באותם כלים.
ובכן, הסיפור הבסיסי כולל שני משתנים כאלה, נאמר X ו- Y. לכל אדם במדגם שלנו יש ערך-X וערך-Y (למשל, ציון במבחני אכילת גזר, בין 1 ל- 100, ומהירות תגובה לבדיחה מסויימת, בשניות). לצורך העניין אנחנו מניחים בצד את כל שאר התכונות המתארות את האדם הזה, ומתרכזים רק ב- X ו- Y שלו. כל אדם הוא נקודה במרחב הדו-ממדי של נתוני המדגם.
כעת רוצים לחשב מתאם. שמו המלא של המתאם הוא מקדם-מתאם-ליניארי, להבדיל ממקדמי מתאם אחרים, מסובכים יותר.
*נניח* שכל אדם מחשב את ציון ה-Y שלו על-ידי חיבור שלושה גורמים: מרכיב קבוע a (משותף לכל בני-האדם באשר הם שייכים לאוכלוסית המחקר); מקדם קבוע בשם b שבו הוא מכפיל את X הפרטי שלו (גם a משותף לכולם); ותוספת אקראית (בעלת התפלגות נורמלית (כי כל דבר (כמעט) מתפלג נורמלית, ובלי ההנחה הזו קשה יותר להמשיך בחישובים). סיכום: Y=a+b*X+error (לגורמים האקראיים שאינם קשורים ל- X, אלו שמייחדים את בני האדם זה מזה ומאפשרים אינדיווידואליזם, סטטיסטיקאים אוהבים לקרוא error).
ההנחה הזו, ש- Y=a+b*X+error, נקראת *מודל*. אפשר להמציא גם מודלים אחרים (למשל, Y=a+b*X+c*X*X+error, או דברים יותר גרועים), אבל זה סיפור (קצת) אחר.
כל מה שנשאר לעשות הוא לחשב את a ו- b. כמובן שאי-אפשר באמת *לחשב* אותם (הם נתוני רקע של העולם, ואין לנו שום אפשרות לחקור אותם ישירות), ולכן מסתפקים ב*אמידה* שלהם. כלומר - אספנו מדגם בגודל מסויים, ומונחים לפנינו כך-וכך זוגות X,Y. אפשר לחשב מהם המספרים a ו- b שיסבירו את הנתונים האלה באופן הטוב ביותר. (מבחינה גרפית, זה כמו למצוא את הקו הישר שיעבור קרוב ביותר לנקודות המדגם (הקו הזה ממזער את סכום ריבועי המרחקים)).
אחרי השלמת המשימה הזו, "מנרמלים" את b (מחלקים בסטיות תקן כיד המלך) והתוצאה היא *מקדם המתאם*.
המקדם הזה הוא מספר, בין מינוס-אחת לאחת, שמצביע על חוזק הקשר בין X ל- Y. אם המקדם קרוב לאפס, אין כמעט שום קשר; אם המקדם קרוב לקצוות, הקשר חזק מאד.
נניח שזמן התגובה הממוצע לבדיחה שלנו הוא 2.7 שניות. אם מבקשים ממני להעריך מה יהיה זמן התגובה של אדם שאני לא מכיר, התשובה הבטוחה ביותר (במובן מאד מדויק, של מזעור תוחלת הריבוע של השגיאה) היא 2.7. אם, בנוסף, אני יודע שהציון הממוצע במבחני אכילת גזר הוא 60, ושהמקדם b (לפני הנרמול) הוא 0.1, אז ידיעת X יכולה *לשפר* את יכולת ההערכה שלי. אם אינני יודע מה ה- X שלך, אני מעריך את זמן התגובה ב- 2.7. אבל אם קיבלת 70 במבחני הגזר, כדאי לי לשנות את ההערכה ל- 3.7 (תוספת של 10 נקודות מעל הממוצע, כפול המקדם).
מאד יתכן שגם כאשר מקדם המתאם חיובי, ואפילו קרוב ל-1, יהיו אנשים בעלי ציון גזר נמוך וזמן תגובה גבוה, ולהיפך. אבל הם יהיו מעטים, והרוב הגדול של האוכלוסיה יתאים למגמה הכללית.
(זו תשובה מאד חלקית; התעלמתי לחלוטין משאלות של מובהקות).
|
|