בתשובה לג'וד, 28/01/16 10:29
שת''פ עם האויב 672847
>> אנחנו לא יודעים איזה מין ביקורת עמיתים המחקר עבר.

נכון. אנחנו גם לא יודעים איזה מין בדיקות בטיחות עברה כל מעלית שאנחנו משתמשים בה, ויכול להיות שהבודקים מתרשלים באופן פלילי מפעם לפעם, אבל זה לא אומר שצריך לבטל את בדיקות הבטיחות למעליות. כן צריך למסד ולאכוף נהלים שיבטיחו - עד כמה שאפשר - את איכות בדיקות הבטיחות של מעליות, וכנ"ל עם ביקורת עמיתים במחקר האקדמי.

לעניין הסיגריות (שהוא אצלך רק מבוא צדדי, אני חושב, אבל בכל זאת): מחקר מהסוג שתיארת, שבו אוספים נתונים על הרגלים של אנשים ואז בודקים איך ההרגלים קשורים לתחלואה, הוא מה שנקרא "מחקר רטרוספקטיבי". הערך הסטטיסטי של מחקרים רטרוספקטיביים הוא נמוך יותר מזה של מחקרים פרוספקטיביים מבוקרים עם רנדומיזציה, כי הם חשופים ליותר הטיות ולא מנטרלים השפעה של משתנים מתערבים (confounding). למשל, בדוגמת מחקר העישון שלך, גם אם תתגלה תחלואה גבוהה הרבה יותר אצל המעשנים הכבדים, לא ניתן יהיה לדעת האם העישון גורם לתחלואה - יכול להיות שיש משהו (גן?) שגורם לאנשים גם לרצות לעשן וגם לחלות.

בנוסף לבעיות הידועות הנ"ל של המחקרים הרטרוספקטיביים, יש בתת-המקרה של מחקרים מבוססי-שאלונים את בעיית איכות הדיווח. אין מה להגיד, בעיה קשה, שבוודאי עיוותה את המסקנות של אלפי מחקרים.

במקרה הספציפי שלנו - צריכת כולסטרול מדווחת מול מחלות לב - עלו פה בדיון שתי דרכים למדל את הדיווח החלקי: אם אני מבין נכון, הפונז הציע מודל שבו הכמות המדווחת היא חלק קבוע (שליש, אצלו בדוגמא) מהכמות האמיתית, ושכ"ג הציע מודל שבו יש כמות כולסטרול קבועה לא מדווחת אצל כולם. בשני המקרים מדובר בטרנספורמציה לינארית של קו הרגרסיה‏1, ולכן התשובה לשאלה "האם יש קשר מובהק סטטיסטית בין צריכת כולסטרול למחלות לב" תהיה אותו הדבר גם כשהדיווח מדויק לחלוטין וגם כשהוא חסר. לכן אני לא מסכים עם החלק של המשפט שלך "השגיאות … יורידו את המובהקות...". מה שכן ישתנה זה מקדם הרגרסיה, כלומר הכימות של הקשר: אם בלי התחשבות בדיווח החלקי היינו מסיקים שעלייה מחצי ביצה ליום לשלוש ביצים ביום תגדיל את הסיכוי למחלה ב-x אחוז, עכשיו (אחרי התחשבות בדיווח החלקי) נסיק שהיא תגדיל ב-y. מה יותר גדול, x או y? אם אני לא טועה, זה כבר תלוי בסוג הניתוח ובנתונים.
________
1. אני מתייחס לניתוח הסטטיסטי הכי נאיבי של הסיטואציה: רגרסיה לינארית / לוגיסטית פשוטה.
שת''פ עם האויב 672857
תודה יובל על כל התשובות.
בדוגמת הכולסטרול המודלים של שכ''ג והפונז פחות מעניינים כי הם תיאורטיים, מעניין אותי מה קורה במציאות, כהשגיאות יותר קרובות לאקראיות.
לפי התשובות שלך אני מבינה בעקיפין שהמתאם שקיים במציאות היה מתמסמס וקו הרגרסיה היה משתטח, כאילו אין מתאם בין אכילת כולסטרול למחלות לב.

גם אם יש תת דיווח על אכילת בשר, אי אפשר להניח שהוא באחוז שווה או בשיעור שווה אצל כולם. מודל יותר סביר הוא שמי שאוכל הרבה בשר מדווח על אחוז גבוה פחות. מי שאוכל מעט בשר מדווח קרוב למציאות.
כמו כן, כפי שאמרנו, קיימת שיכחה פשוטה, ובנוסף לזה בפרקי זמן כה ארוכים של שנים אנשים במערב משנים את התזונה שלהם בגלל נסיבות חיצוניות או התאהבות באיזה אוכל או בריאות.

מסיבה זו, אגב, מחקר סין הוא מחקר טוב, כי הוא נעשה על חברות סיניות מסורתיות, ובחברות כאלה התזונה של האנשים דומה בקרב האנשים ואינה משתנה כפי שבמערב. ביישוב אחד שהמחקר התבצע בו היה הבדל גדול בין שני שאלונים שמולאו בפרקי זמן שונים. בגלל ההבדלים הגדולים המחקר לא נכלל ברגרסיה, והסיבה להבדלים היתה שהאנשים האלה הם נוודים למחצה, ובעונות מסוימות בשנה אכלו יותר בשר.
שת''פ עם האויב 672883
האם מחקרים דומים לאותם מחקרים שלא מצאו מתאם לאכילת כולסטרול כן הצליחו למצוא מתאמים (חיוביים או שליליים) לכל מיני מאכלים? אם כן, למה שם לא מדובר על שגיאה אקראית?

כמוכן למיטב הבנתי די קשה לא להבחין באכילת בשר. לא ברור לי לפי מה את טוענת שיש תת דיווח דווקא של זה.
שת''פ עם האויב 672919
ברור שיש מחקרים שמצאו מתאמים, כולל מתאם בין אכילת בעלי חיים לכולסטרול. אני שואלת לגבי הכימות שלהם, כי השגיאות בנתונים גורמות לכך שקו הרגרסיה משתטח. כלומר אם נניח שבמציאות ביצה אחת ליום מעלה סיכון למחלת לב ב-‏50%, במחקר נקבל משהו מתון בהרבה, כמו למשל שביצה אחת ליום מעלה סיכון למחלת לב ב-‏10%.
שת''פ עם האויב 673039
האפקט של חוסר הדיוק בדיווח של האנשים הוא כנראה לא כזה גדול. אני אתן דוגמה מספרית.
אני מניח שרירותית את המודל הבא:
100,000 איש
סיכוי למחלת לב אצל מי שלא אוכל ביצים 10%.
סיכוי למחלת לב אצל מי שאוכל ביצה ליום 15%, כלומר 50% יותר‏1.
מספר הביצים שאדם אוכל הוא מספר מקרי בין 0 ל-‏1.
מספר הביצים שאדם מדווח שאכל הוא המספר האמיתי כפול מספר מקרי בין 0.4 ל-‏1.4 (נטיה קטנה לדווח פחות מהערך האמיתי).
אם עושים רגרסיה לינארית, אז במקום עליה בסיכוי של 50% לביצה אחת, נקבל עליה של 39%.

1 יש גם מחקרים שהראו יחס הפוך בין אכילת ביצים ומחלת לב כלילית, ובמטה-אנליזה של המחקרים מקבלים שביצה ביום מורידה את הסיכוי ב-‏1%, כאשר תוצאה זו היא ללא מובהקות. כלומר, לפי המחקרים שנעשו, אפשר לומר שכנראה אין השפעה גדולה (סדר גודל של 50%) של אכילת ביצים. תתכן השפעה קטנה, כאשר יתכן שההשפעה שלילית ויתכן שהיא חיובית.
שת''פ עם האויב 672886
מחקר סין הוא מחקר גרוע, אך כיוון שלפי דעתך זה מחקר טוב, האם בדקת מה מחקר זה אומר על הקשר בין אכילת כולסטרול ומחלות לב?
מחקר סין מצא קשר *הפוך* בין צריכת כולסטרול וכל מחלות לב וכלי דם (כלומר, הייתה פחות תמותה ממחלות אלו באיזורים בהם צרכו יותר כולסטרול). לגבי מחלת לב כלילית, גם היה קשר הפוך (עם מובהקות לאחר תקנון למשתנה הכנסה).
שת''פ עם האויב 672892
כבר נאמר פה שאין שום סיבה שהשגיאות יהיו אקראיות. אם שגיאות הדיווח של אנשים על מעשיהם ותפיסותיהם היו אקראיות, לא היינו לומדים מכהנמן וחבריו על הטיות אופייניות כאלה ואחרות שניתנות למדידה וכימות. הסיבה שקוראים למשהו ''הטייה'' היא שהשגיאה שהוא גורם איננה אקראית, אלא בעלת כיוון ועוצמה יחודיים.

גם המודל היותר סביר בעינייך שתיארת, הוא שגיאה לינארית של המדידה, ובכיוון מוגדר. ולכן מה שאמר על זה יובל תקף גם כאן. (ולא, יובל לא אמר שהמתאם היה מתמסמס).
שת''פ עם האויב 672918
אוקי אבל אני שואלת על שגיאה אקראית.
בדיון הקודם שהיה פה אנשים אמרו ששגיאה אקראית כאילו מתקנת את עצמה (אולי אתה אמרת או צפריר), כי יש אנשים שמגזימים כלפי מעלה ויש שמגזימים כלפי מטה, והשגיאות מתקזזות. אני חושבת שזו טעות, שגיאות אקראיות לא מתקנות את עצמן ברגרסיה, הן משבשות אותה.

ספיציפית לגבי אכילה של מזון כלשהו, גם אם קיימת פונקציית שגיאה אין לך מושג מהי, להניח שהיא לינארית זה ניחוש ללא יסוד, ולכן איך לך מושג איך לתקן. אם בכלל קיבלת שקיים מתאם, כי יכול להיות שהשגיאה יצרה מצג שווא של חוסר מתאם.

אני לא דיברתי על פונקציית שגיאה לינארית, כתבתי שיותר סביר שככל שמישהו אוכל יותר בשר, כך אחוז הדיווח שלו כלפי מטה יהיה יותר גדול. זה לא לינארי.

וזה גם לא המקור היחיד לשגיאה, אנחנו מדברים על פרקי זמן של שנים ועשרות שנים, והתזונה של בני אדם משתנה לאורך השנים האלה, לכן הנתונים שאספת מלאים שגיאות לשני הכיוונים.
שת''פ עם האויב 672922
גם כשמי שאוכל יותר בשר שגיאת הדיווח שלו (כלפי מטה) גדלה, עדיין פונקצית השגיאה היא מונוטונית עולה וכמות הבשר עולה ככל שאוכלים יותר בשר.
גם אם זה יוצא עלייה ריבועית ולא ביחס ישר, זה עדיין לא קשה לעשות לזה רגרסיה לינארית (למרות השם המטעה, רגרסיה לינארית ניתן לעשות גם לפולינומים מסדר גבוה מאחד, בדיוק באותה קלות חישובית).

ושגיאות גדולות - גם אם אקראיות - מצריכות מדגם גדול יותר, אבל עדיין לא משבשות לחלוטין את הרגרסיה (לפחות כל עוד השגיאה לא גדולה משמעותית מהסיגנל - שזה בהחלט לא המצב כאן. אף אחד לא מדווח שהוא אכל במאה וחמישים אחוז פחות ממה שהוא אכל באמת).
שת''פ עם האויב 672925
אתה מניח שזה שאוכל יותר ידווח על קצת יותר. על סמך מה?
יותר סביר שהוא ידווח כמו זה שאוכל מעט. אם נניח שאגוזי ליום זה מעט, זה שאוכל שני אגוזי ידווח שהוא אוכל אחד, ותקבל שאין קשר בין כמות האגוזי ליום לבין סוכרת.
שת''פ עם האויב 672927
מעניין, את טוענת ששני אגוזים ליום הופכים מישהו שהיה אמין ב-‏100% כשאכל אגוז אחד ביום, לשקרן גדול. זאת נשמעת לי ספקולציה מופרכת יותר מכל מודל שהוצע כאן, בטח כשאת צריכה לטעון שזה מתקיים בדיוק לעשרות אלפי אנשים.
וזה עוד לפני שהזכרנו שגם מי שאוכל אגוזי אחד ליום, אוכל יותר אגוזי-ם מרוב האוכלוסיה שאיננה אוכלת אפילו אגוזי אחד ליום.
כשאת הופכת את כל הנתונים האלה למספרים גדולים (במיצוע על תקופות ואנשים), הנתונים הופכים להרבה יותר רציפים וקפיצות של אחד לשניים (או שניים לאחד) הן לא רלוונטיות ולא מציאותיות.

ותהייה נוספת - מעבר לאי הסבירות הסטטיסטית או הלוגית, למה את חושבת שאנשים כל כך מתביישים בכמה אגוזים (או ביצים) הם אוכלים? את מבינה שלרוב האנשים אלה פעולות שאין בהן שום בושה ואין שום סיבה עמוקה לשקר לגביהן?
שת''פ עם האויב 672929
אתה ממעיט בהשפעה של ההונאה העצמית. אנשים נוטים להעריך שהם אוכלים יותר "בריא" (בהתאם למשמעות המעודכנת של "בריא") ממה שהם עושים בפועל, ומדווחים את האמת שהם מכירים‏1. בדומה, אנשים שמנסים לרדת במשקל נוטים לדווח שהם אוכלים פחות ממה שהם אוכלים באמת וכשהם עורכים יומן אכילה מדוקדק, כלומר רושמים כל מה שהם צורכים בעת האכילה (ולא "אני ארשום עוד מעט"), הם מופתעים לא פעם מהתוצאה. אצל מי שמנסה לעלות במשקל, אותו זן משונה בסכנת הכחדה, נתקלים בתופעה הפוכה בדיוק. לכן אין כאן שקר מכוון או בושה אלא חולשה אנושית מוכרת. אני חושב שג'וד צודקת גם בכך שהטיה מערכתית כזאת, אם לא יודעים לנרמל אותה, אכן פוגעת בתקפות המחקרים.
_____________
1- בניגוד לכמה מהמגיבים באתר, אני בטוח שאתה יודע להבדיל בין טעות לבין שקר.
שת''פ עם האויב 672934
אין לי ספק שיש הטיות דיווח משמעותיות. אבל:
א. אני אתפלא אם הן כל כך גדולות ובגודלן ואקראיות בכיוונן כך שהן יחסלו כל קורלציה רבת משתתפים. למשל, כמו שאמרת, "זן בסכנת הכחדה" היא הדרך הפיוטית לומר שהרזים שמגזימים יהיו רחוקים (סטטיסטית) מלקזז את האכלנים המפחיתנים.
ב. הייתי מצפה ממחקרים לעשות מעקב נוסף על דיווח בעל פה, בטח עם כל שלל האמצעים הטכנולוגיים הנגישים לכל אחד מאיתנו היום‏1.

1 בדיוק השבוע התפרסמה במוסף הארץ כתבה מעניינת ומעוררת מחשבות על אמנית שעוסקת בניטור עצמי בלתי פוסק שכולל את דפוסי האכילה, השנה, ההליכה הנשימה ועוד לאורך 24 שעות ביממה, ולעיתים לאורך שבועות. קל לחשוב איך באמצעים שכוללים את הסלולרי שלך ועוד אולי מדיד קטן אפשר לעשות עליך מעקב כל כך מדויק, שהוא ידע עליך הרבה יותר ממה שאתה (חושב שאתה) יודע על עצמך‏2.
למשל, כדי לסבר את האוזן, מדי סוכר רציפים כבר קיימים ונפוצים יותר מעשר שנים, למיטב ידיעתי, וממד כזה הרבה יותר קשה להסתיר את כמות חטיפי האגוזי שאכלת לאורך היום.
2 קל למשל לדמיין - ובקרוב מאד (אם לא אתמול) גם ליישם - מנגנון שעוקב אחרי כל קניות המזון שלך, רק דרגה אחת מעל הפירוט שקיים כבר עשרים שנה של הקניות בכרטיס הויזה, ויודע בדיוק כמה אגוזי אתה קונה.
שת''פ עם האויב 672941
א. אני לא טוען שהן מחסלות כל קורלציה, אבל הן מכניסות הטיה מערכתית שאם לא מתחשבים בה עלולה להיות משמעותית.
ב. תתפלא עד כמה הבקרות בחלק לא מבוטל מהמחקרים עלובות.

2 אבל הוא לא יודע כמה אגוזי אני זורק (או מחלק לחברים של הילדים שלי). הסוּפר יודע כבר היום בדיוק מה המשפחה שלי קונה, בלי להזדקק לטכנולוגיה מסובכת יותר מקורא בר-קוד.
שת''פ עם האויב 672950
2 ראה ‏1 בתגובה הקודמת.
שת''פ עם האויב 672931
מה פתאום, אתה אומר את זה לא אני, אני אומרת שכולם טועים ואנחנו לא יודעים איך.
יש כל מיני מקורות לשגיאה, סתם שכחה כי מי זוכר מה הוא אכל בשנה שעבר, הטייה של מזונות רעים כלפי מטה, ושינויים בחיים.

אני טוענת שכל מתאם שקיים במציאות יתבטא בצורה חלשה יותר במחקרים כאלה אם בכלל.
ואם למרות הכל כן נמצא מתאם, לחלוטין לא סביר שזה במקרה, ומאד סביר שבמציאות הוא יותר גבוה. זה מה שרציתי לשאול יובל, האם הוא חותם על המשפט האחרון.
שת''פ עם האויב 672937
אם נמצא מתאם, אני נוטה להסכים איתך שהוא לא מקרי, ולגמרי לא מסכים איתך שבמציאות הוא יותר גבוה, ונתתי‏1 כבר כמה דוגמאות מפורטות לתרחישים הפוכים.

1 האמת שאת נתת, אני רק ניתחתי אותם והגעתי לתוצאה הלא חביבה עלייך.
שת''פ עם האויב 672943
אי הבנה כי טענת שיש מווטוניות, ובמודל שלי אין מונוטוניות.

(והוא רק דוגמה לכך שאפשר לנחש כל מיני מודלים כי אנחנו לא יודעים איך השגיאות מתנהגות, ואין בסיס להדביק להן מודל שנוח לנו )
שת''פ עם האויב 672944
אבל את זאת שרצתה לטעון (באישור פרופסור מוסמך שעדיין לא ענה) ש''מאד סביר שהמתאם יותר גבוה''. אני הראיתי שיכולים להיות תרחישים אחרים, גם הפוכים, ולכן זה מספיק כדי לערער את הטענה ש''יותר סביר שהמתאם יותר גבוה''. זה לא בהכרח אומר שהמתאם הפוך, כמו בדוגמאות שלי, זה רק אומר שבמקרה הטוב אי אפשר להבחין לכאן או לכאן, בניגוד לטענה שלך.
שת''פ עם האויב 672969
בגלל זה כתבתי ב"סבירות גבוהה". כי במקרה הממוזל שכל האוכלוסיה על שמניה ורזיה מדווחת שאכלה X% פחות ממה שבאמת אכלה, או על X גרם פחות ממה שאכלה (עד אפס), וכולם אותו X, ולמעשה אין אקראיות, בתסריט כזה המתאם יישאר. אלה המודלים שהצגת, אבל הם יקרו בסבירות נמוכה עד מאד.

אין לנו בסיס לדמיין שום מודל לשגיאות. כל מודל שנדביק הוא מונפץ. אם כבר סביר שהמציאות דומה יותר למודל שהצגתי שבו מי שאוכל יותר נוטה לדווח על פחות, ואלה שאוכלים מעט מדווחים יותר במדויק. וסביר שהמציאות אקראית יותר בגלל תכונות אישיות שמתערבות בדיווח, שיכחה, ושינוי תזונה, ואקראיות ממסמסת את המתאם.

יובל לא ענה על זה בדיוק אז אני מחכה לשמוע, אם הוא ימצא את הידיים והרגליים בשרשור הזה.
שת''פ עם האויב 673016
אכן נחכה ליובל, אבל יש לי הערה אחרונה:
נראה שאת מנסה לתפוס את המקל משני קצותיו - גם לטעון שהמחקרים האלה לא מדויקים ואמינים בגלל שגיאות המדידה/דיווח, וגם לטעון שכשנמצא מתאם נמוך, בעצם זה מראה על מתאם גבוה. זה לא עובד. אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל.

ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות, אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו.
שת''פ עם האויב 673018
הטענה היא שהטיות הדיווח פועלות בכיוון של הקטנת האפקט, כך שאם אכן התגלה אפקט למרות הבעייתייות הזאת הרי שהוא חזק יותר במציאות.
שת''פ עם האויב 673019
זאת טענה חסרת בסיס. גם הנתונים שהבאת בתגובה האחרונה (מרובת הקישורים) לא נראים שתומכים בטענה הזאת.
לדעתי ג'וד מבלבלת בין גודל האפקט למובהקות שלו, ומזה כל התסבוכת. אפקט של עלייה של 10% יכול להיות הרבה יותר מובהק בניסוי מסוים מאפקט של עלייה של 90%. ההבדל בין שני המושגים דומה להבדל בין הממוצע לסטיית התקן - יותר רעש במדידה מגדיל את סטיית התקן אבל לא את הממוצע. בשביל לטעון שהשגיאה היא עצמה בכיוון מסוים, צריך הוכחות יותר רציניות, בייחוד כשהבאנו דוגמה (די סבירה) שבה הקטנת הדיווח גורמת דוקא להגדלת האפקט.
שת''פ עם האויב 673040
"אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל"
לא, וזאת הטענה הראשונה שלי, במחקר גדול הסיכוי לקבל במקרה מתאם במקום שהוא איננו קיים, הוא נמוך מאד.

"ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות"
השגיאות המוזכרות - אם כוונתך למודלי השגיאה שאתה הצעת, הם חיפוש מתחת לפנס כי הם ניחושים נוחים בלי בסיס מציאותי, והם אפילו לא פוגמים במתאם.

"אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו."
אתה מנהל איתי תת-דיון שאני לא שותפה לו, איזה תוצאה לא מוצאת חן בעיניי?
שת''פ עם האויב 673080
בדיון הספציפי הזה, התוצאה שלא מוצאת חן בעינייך, כנראה, היא שיש מתאם *נמוך* בין אכילת ביצים\צריכת כולסטרול לבין הסיכון למחלות לב.
שת''פ עם האויב 673050
>> יובל לא ענה על זה בדיוק אז אני מחכה לשמוע

ייקח לי קצת זמן, אבל אענה.
שת''פ עם האויב 673614
התכוונתי לכתוב תגובה מפוארת אבל אני לא מגיע לזה. הנה כמה הערות בכל זאת.

ברגרסיה רגילה, המונח "שגיאה" (error) מציין את המרחק בין ערך ה-y של נקודה לבין הערך על קו הרגרסיה שבדיוק מעל ערך ה-x של הנקודה, כמו בתרשים הזה. ג'וד - את השתמשת במונח "שגיאה" כדי לציין את ההבדל בין ערך ה-x המדווח של נקודה (כמות החלב שאנשים טוענים שהם צורכים) לבין הערך ערך ה-x האמיתי (הכמות שהם באמת צורכים). כדי לשמור על טרמינולוגיה נקייה, בואו נקרא לגודל האחרון "סטיית דיווח". (העניין מתקשר ל-Deming regression, אבל לא בדיוק.)

לא בדקתי ולא ידוע לי על מחקרים בנושא, אבל נראה לי הגיוני מה שג'וד טוענת - שסטיית הדיווח לא מתפלגת סימטרית סביב 0, אלא שהיא בעלת נטייה שלילית, כלומר אנשים נוטים לתת דיווח חסר של צריכת החלב שלהם. אממה, כדי שנוכל לקיים דיון כמותי על המשמעות ההסקתית של התופעה הזאת, חייבים למדל אותה איכשהו. במעלה הפתיל היו שני ניסיונות לעשות את זה, אבל את כתבת "אין לנו בסיס לדמיין שום מודל לשגיאות [= סטיות הדיווח]. כל מודל שנדביק הוא מונפץ." אם ככה, אז פשוט אין איך להתקדם בדיון. גם רגרסיה כשלעצמה היא מודל "מונפץ" - למה להניח שהתצפיות בלתי תלויות? למה קו רגרסיה ישר? למה להתייחס לריבועי השגיאות? כבר שנו חכמים: "All models are wrong, but some are useful".

מה שמסבך עוד יותר את העסק זה העובדה שמשתנה ה-y הנצפה שלנו - התוצאה של צריכת חלב כזו או אחרת - הוא באופן טבעי בינארי: התקף לב כן היה או לא היה‏1. אנחנו מנסים לאמוד את ההסתברות שמאורע מסוים (התקף לב) יקרה כתלות בערך x כלשהו (צריכת חלב). הווריאנט של רגרסיה שמתאים למקרים כאלה נקרא "רגרסיה לוגיסטית". צריך וריאנט נפרד כי "הסתברות" - הגודל שאנחנו מנסים לאמוד – היא בהכרח בין 0 ל-‏1, וישר רגרסיה רגיל במוקדם או במאוחר יחרוג מהתחום הזה. לכן מקובל לעבוד עם טרנספורמציה (בד"כ פונקציה שנקראת logit) שתטפל בבעיה הזו. אבל ברגע שעובדים עם טרנספורמציות לא לינאריות מתחילות בעיות עם האינטרפרטציה של "מתאם", "שגיאה" (במובן המקורי של המונח, ולא "סטיית דיווח"), ועוד. אז צריך מאד להיזהר בדיון.
______________
1. אפשר לדבר גם על משתנה y שהוא לא בינארי, למשל תוחלת החיים, אבל נדמה לי שהדיון לא הלך לשם.
שת''פ עם האויב 673634
במחקרי תזונה לא לוקחים בחשבון את סטיות הדיווח. כך שלא חשוב אם הסטיות הן אקראיות או מתנהגות לפי מודל כלשהו, כי במילא לא עושים כלום ומתייחסים לנתונים כאמת.
והתהייה שלי היא מה זה עושה למסקנות המחקר.

למשל, אם מודל הסטיות הוא שככל שאוכלים יותר כולסטרול נוטים לבלף בלוף גדול יותר, נקבל שאין מתאם בין כולסטרול במזון לכולסטרול בדם, כי אנשים אוכלים אותה כמות כולסטרול ולחלק מהם יש כולסטרול גבוה בדם ולחלק נמוך. או שנקבל שיש מתאם רק ברמות צריכה נמוכות אבל אם אוכלים הרבה זה כבר לא משנה.
דברים כאלה.

את הפסקה השניה לא כל כך הבנתי. הדוגמה הספציפית בדיון היא רמת כולסטרול במזון לעומת רמת כולסטרול דם, זאת אומרת שזה רציף ולא בינארי. אבל מזמן תהיתי איך מחשבים עלייה בסיכון למחלה למשל, אז אקרא על ה LOGIT הזה.
תודה על התשובה.
שת''פ עם האויב 673005
תיקון מינוח: שגיאות אקראיות מתקזזות (בהסתברות לא רעה) כאשר משתמשים במדגם מספיק גדול. אבל לא כל השגיאות הן אקראיות. אם הדיווח מוטה מסיבה זו או אחרת (והשימוש במילה "מוטה" לא מיועד לרמוז על הטיה פעילה), ההטיות הללו יבואו לידי ביטוי בתוצאות. ליתר דיוק, גם המתאם שאותו אנחנו מחפשים הוא איזושהי הטיה של המדגם במובן מסוים (כלומר: לעומת מדגם שבו אין קשר בין שני המשתנים).

מעבר לכך, בגלל הניחושים הללו שאלתי האם נעשו מחקרים על הטיות הדיווח של אנשים. יש לנו כאן כל מיני אינטואיציות שונות, אבל הרבה יותר טוב להיעזר בנתונים אמתיים כדי לנסות להעריך את השגיאה.
שת''פ עם האויב 673011
על הטיות הדיווח של סה"כ הצריכה הקלורית: (המאמר המלא לא נגיש לי, כיאה לדיון בו אנחנו נמצאים). מתוך המסקנות: "We observed a large downward bias in reporting food intake related to social desirability score." אם להאמין לתקציר יש להם גם הצעות לטיפול בבעיה.

הדיווח בנוגע לאכילת פירות וירקות נגוע בבעיה די דומה (בלי להכנס לפרטים, אם הודיעו לנחקרים שהמחקר נועד לבדוק צריכת פירות וירקות הם הגזימו בדיווח בכיוון הזה), הנה. מהמסקנות: "Self-reports of fruit and vegetable intake using either a food frequency questionnaire or a limited 24-hour recall are both susceptible to substantial social approval bias."

יש, כמובן, עוד די הרבה, וגוגל ישמח להפנות אותך. כשתיבת החיפוש היתה "self reporting food consumption bias" הוא מצא יותר משני מליון תוצאות.

ממבט חטוף נראה לי שכאן יש סיכום לא רע של המצב. ג'וד - יכול להיות שחלק מהשאלות שהפנית ליובל נענות שם, כאמור אני רק הצצתי.
שת''פ עם האויב 673020
ראיתי לפני כמה חדשים כתבה מתורגמת (בגלובס, אני חושב) על הטיה כלפי מטה באומדן הקלוריות שיש במאכלים.
הנבדקים העריכו בממוצע את כמות הקלוריות באוכל "לא בריא" גבוה יותר מאשר בארוחה שכוללת את אותו אוכל "לא בריא" בתוספת אוכל "בריא".
לדוגמה הנבדקים העריכו את כמות הקלוריות בארוחה הכוללת צ'יזבורגר וצ'יפס לבד ביותר מאשר בארוחה הכוללת את אותם צ'יזבורגר וצ'יפס וגם מקלות סלרי.
שת''פ עם האויב 673025
מה, לא ידעת שלחסה (וגם לסלרי באותה מידה של בטחון ורצינות) יש כמות שלילית של קלוריות, כי אתה מוציא יותר אנרגיה כדי לעכל אותם מהאנרגיה שאתה מפיק מהם?
שת''פ עם האויב 673032
גם לאנטי חומר?
המעי הקטן והמפץ הגדול 673035
בדיוק להיפך, אנטי-חומר שיגע בחלק כלשהוא של מערכת העיכול שלך ישחרר את הכמות ה*מקסימלית* של אנרגיה שניתן להפיק מחומר כלשהוא.
המעי הקטן והמפץ הגדול 673037
אה.
אז שעועית זה אנטי חומר?
(וחייב למחזר:האם אנטי פסטה מנטרלת פסטה?)
I'm having a friend for dinner 673038
(בטח, בייחוד כשהם מלווים באיזה קיאנטי טוב)
שת''פ עם האויב 673041
נכון, זה מחקר מעניין על הנטייה לתת תשובות רצויות והוא דן בחלק מהשאלות שמטרידות אותי. העליתי אותו לדרופבוקס.

גם אני קראתי רק ברפרוף, למשל ככל שאנשים אכלו יותר שומן הם דיווחו על פחות.
שת''פ עם האויב 673043
אם במציאות יש מתאם, שגיאות יגדילו את הפיזור סביב קו הרגרסיה.
אז מקדם הרגרסיה יישאר אותו דבר אבל המדד של הפיזור (שכחתי איך קוראים לו) יהיה גדול.
אז איך שגיאות מקזזות זו את זו?
שת''פ עם האויב 673081
מקדם הרגרסיה נשאר אותו דבר בדיוק בגלל שהשגיאות מקזזות זו את זו.
שת''פ עם האויב 673085
אכן, וזה מה שכתוב בחלק הראשון של המשפט שלי, אבל מה שחשוב זה החלק השני.
מקדם הרגרסיה, כלומר השיפוע של הקו, יישאר, אבל הנקודות לא יהיו מסודרות לאורך הקו אלא מרוחות בפיזור, ופירוש הדבר שחלק גדול מהאוכלוסיה אינה מתנהגת בהתאם למתאם.
יובל יסביר את זה.
שת''פ עם האויב 673088
ברור שחלק מהאוכלוסיה לא מתנהגת (וחמור מזה - מודדת את עצמה ומדווחת) *בדיוק* על פי המתאם. הרי אחרת אפשר היה לשאול שלושה אנשים ולקבל תוצאה אמינה. בגלל שיש שגיאה ב*מדידה* של האפקט הנמדד, יש את הפיזור הזה. אבל כשלעצמה זו לא "בעייה" כל עוד המדגם מספיק גדול ושיפוע הקו לא נפגע.
כדאי אולי להזכיר שכל מה שמעניין אותנו זה השיפוע של הקו הזה, וכל השאר זה המכשולים בדרך ללמדוד אותו. אם השיפוע לא נפגע, אפשר להכריז שקיבלנו מדידה מוצלחת ולהסיק מסקנות‏1. גם כשמודדים את מחירי הדיור הממוצעים, נגלה שחלק (אולי אפילו ניכר) מהדירות, ערכן לא עלה בדיוק כמו הממוצע. חלק עלו פחות, וחלק עלו יותר. ועדיין העלייה הממוצעת היא נתון מעניין וחשוב, שלא כדאי להתעלם ממנו בגלל הפיזור של הדגימות שלנו.

1 כמובן שבמקרים קיצוניים עם שגיאות עצומות, זה שם איזה סימן שאלה על התוצאה, זה טריויאלי.
שת''פ עם האויב 673106
שיפוע זה יפה מאד אבל אנחנו שואלים את עצמנו עד כמה הוא באמת מסביר את ההתנהגות, זאת אומרת בדוגמה שלנו כמה מתוך עליית הכולסטרול בדם מוסברת על ידי עליי הכולסטרול במזון. אם הנקודות מפוזרות במרחקים גדולים מקו הרגרסיה זה אומר שקו הרגרסיה אף שהוא יפה ותלול הוא מסביר מעט מאד, ושיש סיבות אחרות שמשפיעות על הכולסטרול בדם.
אני מדברת בשפת בני אדם ולא בשפת סטטיסטיקאים כדי לא לטעות בשמות, נדמה לי שזה נקרא R.
יובל יסביר לנו איך זה משפיע על מסקנות המחקר.
שת''פ עם האויב 673107
המשפט השני שלך לא נכון. אבל בואי נחכה ליובל.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים