בתשובה לג'וד, 01/02/16 14:23
שת''פ עם האויב 672922
גם כשמי שאוכל יותר בשר שגיאת הדיווח שלו (כלפי מטה) גדלה, עדיין פונקצית השגיאה היא מונוטונית עולה וכמות הבשר עולה ככל שאוכלים יותר בשר.
גם אם זה יוצא עלייה ריבועית ולא ביחס ישר, זה עדיין לא קשה לעשות לזה רגרסיה לינארית (למרות השם המטעה, רגרסיה לינארית ניתן לעשות גם לפולינומים מסדר גבוה מאחד, בדיוק באותה קלות חישובית).

ושגיאות גדולות - גם אם אקראיות - מצריכות מדגם גדול יותר, אבל עדיין לא משבשות לחלוטין את הרגרסיה (לפחות כל עוד השגיאה לא גדולה משמעותית מהסיגנל - שזה בהחלט לא המצב כאן. אף אחד לא מדווח שהוא אכל במאה וחמישים אחוז פחות ממה שהוא אכל באמת).
שת''פ עם האויב 672925
אתה מניח שזה שאוכל יותר ידווח על קצת יותר. על סמך מה?
יותר סביר שהוא ידווח כמו זה שאוכל מעט. אם נניח שאגוזי ליום זה מעט, זה שאוכל שני אגוזי ידווח שהוא אוכל אחד, ותקבל שאין קשר בין כמות האגוזי ליום לבין סוכרת.
שת''פ עם האויב 672927
מעניין, את טוענת ששני אגוזים ליום הופכים מישהו שהיה אמין ב-‏100% כשאכל אגוז אחד ביום, לשקרן גדול. זאת נשמעת לי ספקולציה מופרכת יותר מכל מודל שהוצע כאן, בטח כשאת צריכה לטעון שזה מתקיים בדיוק לעשרות אלפי אנשים.
וזה עוד לפני שהזכרנו שגם מי שאוכל אגוזי אחד ליום, אוכל יותר אגוזי-ם מרוב האוכלוסיה שאיננה אוכלת אפילו אגוזי אחד ליום.
כשאת הופכת את כל הנתונים האלה למספרים גדולים (במיצוע על תקופות ואנשים), הנתונים הופכים להרבה יותר רציפים וקפיצות של אחד לשניים (או שניים לאחד) הן לא רלוונטיות ולא מציאותיות.

ותהייה נוספת - מעבר לאי הסבירות הסטטיסטית או הלוגית, למה את חושבת שאנשים כל כך מתביישים בכמה אגוזים (או ביצים) הם אוכלים? את מבינה שלרוב האנשים אלה פעולות שאין בהן שום בושה ואין שום סיבה עמוקה לשקר לגביהן?
שת''פ עם האויב 672929
אתה ממעיט בהשפעה של ההונאה העצמית. אנשים נוטים להעריך שהם אוכלים יותר "בריא" (בהתאם למשמעות המעודכנת של "בריא") ממה שהם עושים בפועל, ומדווחים את האמת שהם מכירים‏1. בדומה, אנשים שמנסים לרדת במשקל נוטים לדווח שהם אוכלים פחות ממה שהם אוכלים באמת וכשהם עורכים יומן אכילה מדוקדק, כלומר רושמים כל מה שהם צורכים בעת האכילה (ולא "אני ארשום עוד מעט"), הם מופתעים לא פעם מהתוצאה. אצל מי שמנסה לעלות במשקל, אותו זן משונה בסכנת הכחדה, נתקלים בתופעה הפוכה בדיוק. לכן אין כאן שקר מכוון או בושה אלא חולשה אנושית מוכרת. אני חושב שג'וד צודקת גם בכך שהטיה מערכתית כזאת, אם לא יודעים לנרמל אותה, אכן פוגעת בתקפות המחקרים.
_____________
1- בניגוד לכמה מהמגיבים באתר, אני בטוח שאתה יודע להבדיל בין טעות לבין שקר.
שת''פ עם האויב 672934
אין לי ספק שיש הטיות דיווח משמעותיות. אבל:
א. אני אתפלא אם הן כל כך גדולות ובגודלן ואקראיות בכיוונן כך שהן יחסלו כל קורלציה רבת משתתפים. למשל, כמו שאמרת, "זן בסכנת הכחדה" היא הדרך הפיוטית לומר שהרזים שמגזימים יהיו רחוקים (סטטיסטית) מלקזז את האכלנים המפחיתנים.
ב. הייתי מצפה ממחקרים לעשות מעקב נוסף על דיווח בעל פה, בטח עם כל שלל האמצעים הטכנולוגיים הנגישים לכל אחד מאיתנו היום‏1.

1 בדיוק השבוע התפרסמה במוסף הארץ כתבה מעניינת ומעוררת מחשבות על אמנית שעוסקת בניטור עצמי בלתי פוסק שכולל את דפוסי האכילה, השנה, ההליכה הנשימה ועוד לאורך 24 שעות ביממה, ולעיתים לאורך שבועות. קל לחשוב איך באמצעים שכוללים את הסלולרי שלך ועוד אולי מדיד קטן אפשר לעשות עליך מעקב כל כך מדויק, שהוא ידע עליך הרבה יותר ממה שאתה (חושב שאתה) יודע על עצמך‏2.
למשל, כדי לסבר את האוזן, מדי סוכר רציפים כבר קיימים ונפוצים יותר מעשר שנים, למיטב ידיעתי, וממד כזה הרבה יותר קשה להסתיר את כמות חטיפי האגוזי שאכלת לאורך היום.
2 קל למשל לדמיין - ובקרוב מאד (אם לא אתמול) גם ליישם - מנגנון שעוקב אחרי כל קניות המזון שלך, רק דרגה אחת מעל הפירוט שקיים כבר עשרים שנה של הקניות בכרטיס הויזה, ויודע בדיוק כמה אגוזי אתה קונה.
שת''פ עם האויב 672941
א. אני לא טוען שהן מחסלות כל קורלציה, אבל הן מכניסות הטיה מערכתית שאם לא מתחשבים בה עלולה להיות משמעותית.
ב. תתפלא עד כמה הבקרות בחלק לא מבוטל מהמחקרים עלובות.

2 אבל הוא לא יודע כמה אגוזי אני זורק (או מחלק לחברים של הילדים שלי). הסוּפר יודע כבר היום בדיוק מה המשפחה שלי קונה, בלי להזדקק לטכנולוגיה מסובכת יותר מקורא בר-קוד.
שת''פ עם האויב 672950
2 ראה ‏1 בתגובה הקודמת.
שת''פ עם האויב 672931
מה פתאום, אתה אומר את זה לא אני, אני אומרת שכולם טועים ואנחנו לא יודעים איך.
יש כל מיני מקורות לשגיאה, סתם שכחה כי מי זוכר מה הוא אכל בשנה שעבר, הטייה של מזונות רעים כלפי מטה, ושינויים בחיים.

אני טוענת שכל מתאם שקיים במציאות יתבטא בצורה חלשה יותר במחקרים כאלה אם בכלל.
ואם למרות הכל כן נמצא מתאם, לחלוטין לא סביר שזה במקרה, ומאד סביר שבמציאות הוא יותר גבוה. זה מה שרציתי לשאול יובל, האם הוא חותם על המשפט האחרון.
שת''פ עם האויב 672937
אם נמצא מתאם, אני נוטה להסכים איתך שהוא לא מקרי, ולגמרי לא מסכים איתך שבמציאות הוא יותר גבוה, ונתתי‏1 כבר כמה דוגמאות מפורטות לתרחישים הפוכים.

1 האמת שאת נתת, אני רק ניתחתי אותם והגעתי לתוצאה הלא חביבה עלייך.
שת''פ עם האויב 672943
אי הבנה כי טענת שיש מווטוניות, ובמודל שלי אין מונוטוניות.

(והוא רק דוגמה לכך שאפשר לנחש כל מיני מודלים כי אנחנו לא יודעים איך השגיאות מתנהגות, ואין בסיס להדביק להן מודל שנוח לנו )
שת''פ עם האויב 672944
אבל את זאת שרצתה לטעון (באישור פרופסור מוסמך שעדיין לא ענה) ש''מאד סביר שהמתאם יותר גבוה''. אני הראיתי שיכולים להיות תרחישים אחרים, גם הפוכים, ולכן זה מספיק כדי לערער את הטענה ש''יותר סביר שהמתאם יותר גבוה''. זה לא בהכרח אומר שהמתאם הפוך, כמו בדוגמאות שלי, זה רק אומר שבמקרה הטוב אי אפשר להבחין לכאן או לכאן, בניגוד לטענה שלך.
שת''פ עם האויב 672969
בגלל זה כתבתי ב"סבירות גבוהה". כי במקרה הממוזל שכל האוכלוסיה על שמניה ורזיה מדווחת שאכלה X% פחות ממה שבאמת אכלה, או על X גרם פחות ממה שאכלה (עד אפס), וכולם אותו X, ולמעשה אין אקראיות, בתסריט כזה המתאם יישאר. אלה המודלים שהצגת, אבל הם יקרו בסבירות נמוכה עד מאד.

אין לנו בסיס לדמיין שום מודל לשגיאות. כל מודל שנדביק הוא מונפץ. אם כבר סביר שהמציאות דומה יותר למודל שהצגתי שבו מי שאוכל יותר נוטה לדווח על פחות, ואלה שאוכלים מעט מדווחים יותר במדויק. וסביר שהמציאות אקראית יותר בגלל תכונות אישיות שמתערבות בדיווח, שיכחה, ושינוי תזונה, ואקראיות ממסמסת את המתאם.

יובל לא ענה על זה בדיוק אז אני מחכה לשמוע, אם הוא ימצא את הידיים והרגליים בשרשור הזה.
שת''פ עם האויב 673016
אכן נחכה ליובל, אבל יש לי הערה אחרונה:
נראה שאת מנסה לתפוס את המקל משני קצותיו - גם לטעון שהמחקרים האלה לא מדויקים ואמינים בגלל שגיאות המדידה/דיווח, וגם לטעון שכשנמצא מתאם נמוך, בעצם זה מראה על מתאם גבוה. זה לא עובד. אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל.

ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות, אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו.
שת''פ עם האויב 673018
הטענה היא שהטיות הדיווח פועלות בכיוון של הקטנת האפקט, כך שאם אכן התגלה אפקט למרות הבעייתייות הזאת הרי שהוא חזק יותר במציאות.
שת''פ עם האויב 673019
זאת טענה חסרת בסיס. גם הנתונים שהבאת בתגובה האחרונה (מרובת הקישורים) לא נראים שתומכים בטענה הזאת.
לדעתי ג'וד מבלבלת בין גודל האפקט למובהקות שלו, ומזה כל התסבוכת. אפקט של עלייה של 10% יכול להיות הרבה יותר מובהק בניסוי מסוים מאפקט של עלייה של 90%. ההבדל בין שני המושגים דומה להבדל בין הממוצע לסטיית התקן - יותר רעש במדידה מגדיל את סטיית התקן אבל לא את הממוצע. בשביל לטעון שהשגיאה היא עצמה בכיוון מסוים, צריך הוכחות יותר רציניות, בייחוד כשהבאנו דוגמה (די סבירה) שבה הקטנת הדיווח גורמת דוקא להגדלת האפקט.
שת''פ עם האויב 673040
"אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל"
לא, וזאת הטענה הראשונה שלי, במחקר גדול הסיכוי לקבל במקרה מתאם במקום שהוא איננו קיים, הוא נמוך מאד.

"ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות"
השגיאות המוזכרות - אם כוונתך למודלי השגיאה שאתה הצעת, הם חיפוש מתחת לפנס כי הם ניחושים נוחים בלי בסיס מציאותי, והם אפילו לא פוגמים במתאם.

"אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו."
אתה מנהל איתי תת-דיון שאני לא שותפה לו, איזה תוצאה לא מוצאת חן בעיניי?
שת''פ עם האויב 673080
בדיון הספציפי הזה, התוצאה שלא מוצאת חן בעינייך, כנראה, היא שיש מתאם *נמוך* בין אכילת ביצים\צריכת כולסטרול לבין הסיכון למחלות לב.
שת''פ עם האויב 673050
>> יובל לא ענה על זה בדיוק אז אני מחכה לשמוע

ייקח לי קצת זמן, אבל אענה.
שת''פ עם האויב 673614
התכוונתי לכתוב תגובה מפוארת אבל אני לא מגיע לזה. הנה כמה הערות בכל זאת.

ברגרסיה רגילה, המונח "שגיאה" (error) מציין את המרחק בין ערך ה-y של נקודה לבין הערך על קו הרגרסיה שבדיוק מעל ערך ה-x של הנקודה, כמו בתרשים הזה. ג'וד - את השתמשת במונח "שגיאה" כדי לציין את ההבדל בין ערך ה-x המדווח של נקודה (כמות החלב שאנשים טוענים שהם צורכים) לבין הערך ערך ה-x האמיתי (הכמות שהם באמת צורכים). כדי לשמור על טרמינולוגיה נקייה, בואו נקרא לגודל האחרון "סטיית דיווח". (העניין מתקשר ל-Deming regression, אבל לא בדיוק.)

לא בדקתי ולא ידוע לי על מחקרים בנושא, אבל נראה לי הגיוני מה שג'וד טוענת - שסטיית הדיווח לא מתפלגת סימטרית סביב 0, אלא שהיא בעלת נטייה שלילית, כלומר אנשים נוטים לתת דיווח חסר של צריכת החלב שלהם. אממה, כדי שנוכל לקיים דיון כמותי על המשמעות ההסקתית של התופעה הזאת, חייבים למדל אותה איכשהו. במעלה הפתיל היו שני ניסיונות לעשות את זה, אבל את כתבת "אין לנו בסיס לדמיין שום מודל לשגיאות [= סטיות הדיווח]. כל מודל שנדביק הוא מונפץ." אם ככה, אז פשוט אין איך להתקדם בדיון. גם רגרסיה כשלעצמה היא מודל "מונפץ" - למה להניח שהתצפיות בלתי תלויות? למה קו רגרסיה ישר? למה להתייחס לריבועי השגיאות? כבר שנו חכמים: "All models are wrong, but some are useful".

מה שמסבך עוד יותר את העסק זה העובדה שמשתנה ה-y הנצפה שלנו - התוצאה של צריכת חלב כזו או אחרת - הוא באופן טבעי בינארי: התקף לב כן היה או לא היה‏1. אנחנו מנסים לאמוד את ההסתברות שמאורע מסוים (התקף לב) יקרה כתלות בערך x כלשהו (צריכת חלב). הווריאנט של רגרסיה שמתאים למקרים כאלה נקרא "רגרסיה לוגיסטית". צריך וריאנט נפרד כי "הסתברות" - הגודל שאנחנו מנסים לאמוד – היא בהכרח בין 0 ל-‏1, וישר רגרסיה רגיל במוקדם או במאוחר יחרוג מהתחום הזה. לכן מקובל לעבוד עם טרנספורמציה (בד"כ פונקציה שנקראת logit) שתטפל בבעיה הזו. אבל ברגע שעובדים עם טרנספורמציות לא לינאריות מתחילות בעיות עם האינטרפרטציה של "מתאם", "שגיאה" (במובן המקורי של המונח, ולא "סטיית דיווח"), ועוד. אז צריך מאד להיזהר בדיון.
______________
1. אפשר לדבר גם על משתנה y שהוא לא בינארי, למשל תוחלת החיים, אבל נדמה לי שהדיון לא הלך לשם.
שת''פ עם האויב 673634
במחקרי תזונה לא לוקחים בחשבון את סטיות הדיווח. כך שלא חשוב אם הסטיות הן אקראיות או מתנהגות לפי מודל כלשהו, כי במילא לא עושים כלום ומתייחסים לנתונים כאמת.
והתהייה שלי היא מה זה עושה למסקנות המחקר.

למשל, אם מודל הסטיות הוא שככל שאוכלים יותר כולסטרול נוטים לבלף בלוף גדול יותר, נקבל שאין מתאם בין כולסטרול במזון לכולסטרול בדם, כי אנשים אוכלים אותה כמות כולסטרול ולחלק מהם יש כולסטרול גבוה בדם ולחלק נמוך. או שנקבל שיש מתאם רק ברמות צריכה נמוכות אבל אם אוכלים הרבה זה כבר לא משנה.
דברים כאלה.

את הפסקה השניה לא כל כך הבנתי. הדוגמה הספציפית בדיון היא רמת כולסטרול במזון לעומת רמת כולסטרול דם, זאת אומרת שזה רציף ולא בינארי. אבל מזמן תהיתי איך מחשבים עלייה בסיכון למחלה למשל, אז אקרא על ה LOGIT הזה.
תודה על התשובה.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים