אלפי מדענים פתחו בחרם נגד חברת הוצאה לאור, במחאה על מדיניות מחירים

בתשובה לג'וד, 28/01/16 10:29

שת''פ עם האויב

672847

יובל נוב (אתר) • בתשובה לג'וד

יום א', 31/1/2016, 11:15

>> אנחנו לא יודעים איזה מין ביקורת עמיתים המחקר עבר.

נכון. אנחנו גם לא יודעים איזה מין בדיקות בטיחות עברה כל מעלית שאנחנו משתמשים בה, ויכול להיות שהבודקים מתרשלים באופן פלילי מפעם לפעם, אבל זה לא אומר שצריך לבטל את בדיקות הבטיחות למעליות. כן צריך למסד ולאכוף נהלים שיבטיחו - עד כמה שאפשר - את איכות בדיקות הבטיחות של מעליות, וכנ"ל עם ביקורת עמיתים במחקר האקדמי.

לעניין הסיגריות (שהוא אצלך רק מבוא צדדי, אני חושב, אבל בכל זאת): מחקר מהסוג שתיארת, שבו אוספים נתונים על הרגלים של אנשים ואז בודקים איך ההרגלים קשורים לתחלואה, הוא מה שנקרא "מחקר רטרוספקטיבי". הערך הסטטיסטי של מחקרים רטרוספקטיביים הוא נמוך יותר מזה של מחקרים פרוספקטיביים מבוקרים עם רנדומיזציה, כי הם חשופים ליותר הטיות ולא מנטרלים השפעה של משתנים מתערבים (confounding). למשל, בדוגמת מחקר העישון שלך, גם אם תתגלה תחלואה גבוהה הרבה יותר אצל המעשנים הכבדים, לא ניתן יהיה לדעת האם העישון גורם לתחלואה - יכול להיות שיש משהו (גן?) שגורם לאנשים גם לרצות לעשן וגם לחלות.

בנוסף לבעיות הידועות הנ"ל של המחקרים הרטרוספקטיביים, יש בתת-המקרה של מחקרים מבוססי-שאלונים את בעיית איכות הדיווח. אין מה להגיד, בעיה קשה, שבוודאי עיוותה את המסקנות של אלפי מחקרים.

במקרה הספציפי שלנו - צריכת כולסטרול מדווחת מול מחלות לב - עלו פה בדיון שתי דרכים למדל את הדיווח החלקי: אם אני מבין נכון, הפונז הציע מודל שבו הכמות המדווחת היא חלק קבוע (שליש, אצלו בדוגמא) מהכמות האמיתית, ושכ"ג הציע מודל שבו יש כמות כולסטרול קבועה לא מדווחת אצל כולם. בשני המקרים מדובר בטרנספורמציה לינארית של קו הרגרסיה‏¹, ולכן התשובה לשאלה "האם יש קשר מובהק סטטיסטית בין צריכת כולסטרול למחלות לב" תהיה אותו הדבר גם כשהדיווח מדויק לחלוטין וגם כשהוא חסר. לכן אני לא מסכים עם החלק של המשפט שלך "השגיאות … יורידו את המובהקות...". מה שכן ישתנה זה מקדם הרגרסיה, כלומר הכימות של הקשר: אם בלי התחשבות בדיווח החלקי היינו מסיקים שעלייה מחצי ביצה ליום לשלוש ביצים ביום תגדיל את הסיכוי למחלה ב-x אחוז, עכשיו (אחרי התחשבות בדיווח החלקי) נסיק שהיא תגדיל ב-y. מה יותר גדול, x או y? אם אני לא טועה, זה כבר תלוי בסוג הניתוח ובנתונים.
________
1. אני מתייחס לניתוח הסטטיסטי הכי נאיבי של הסיטואציה: רגרסיה לינארית / לוגיסטית פשוטה.

שת''פ עם האויב

672857

ג'וד • בתשובה ליובל נוב

יום א', 31/1/2016, 15:53

תודה יובל על כל התשובות.
בדוגמת הכולסטרול המודלים של שכ''ג והפונז פחות מעניינים כי הם תיאורטיים, מעניין אותי מה קורה במציאות, כהשגיאות יותר קרובות לאקראיות.
לפי התשובות שלך אני מבינה בעקיפין שהמתאם שקיים במציאות היה מתמסמס וקו הרגרסיה היה משתטח, כאילו אין מתאם בין אכילת כולסטרול למחלות לב.

גם אם יש תת דיווח על אכילת בשר, אי אפשר להניח שהוא באחוז שווה או בשיעור שווה אצל כולם. מודל יותר סביר הוא שמי שאוכל הרבה בשר מדווח על אחוז גבוה פחות. מי שאוכל מעט בשר מדווח קרוב למציאות.
כמו כן, כפי שאמרנו, קיימת שיכחה פשוטה, ובנוסף לזה בפרקי זמן כה ארוכים של שנים אנשים במערב משנים את התזונה שלהם בגלל נסיבות חיצוניות או התאהבות באיזה אוכל או בריאות.

מסיבה זו, אגב, מחקר סין הוא מחקר טוב, כי הוא נעשה על חברות סיניות מסורתיות, ובחברות כאלה התזונה של האנשים דומה בקרב האנשים ואינה משתנה כפי שבמערב. ביישוב אחד שהמחקר התבצע בו היה הבדל גדול בין שני שאלונים שמולאו בפרקי זמן שונים. בגלל ההבדלים הגדולים המחקר לא נכלל ברגרסיה, והסיבה להבדלים היתה שהאנשים האלה הם נוודים למחצה, ובעונות מסוימות בשנה אכלו יותר בשר.

שת''פ עם האויב

672883

צפריר כהן (אתר) • בתשובה לג'וד

יום ב', 1/2/2016, 0:08

האם מחקרים דומים לאותם מחקרים שלא מצאו מתאם לאכילת כולסטרול כן הצליחו למצוא מתאמים (חיוביים או שליליים) לכל מיני מאכלים? אם כן, למה שם לא מדובר על שגיאה אקראית?

כמוכן למיטב הבנתי די קשה לא להבחין באכילת בשר. לא ברור לי לפי מה את טוענת שיש תת דיווח דווקא של זה.

שת''פ עם האויב

672919

ג'וד • בתשובה לצפריר כהן

יום ב', 1/2/2016, 14:32

ברור שיש מחקרים שמצאו מתאמים, כולל מתאם בין אכילת בעלי חיים לכולסטרול. אני שואלת לגבי הכימות שלהם, כי השגיאות בנתונים גורמות לכך שקו הרגרסיה משתטח. כלומר אם נניח שבמציאות ביצה אחת ליום מעלה סיכון למחלת לב ב-‏50%, במחקר נקבל משהו מתון בהרבה, כמו למשל שביצה אחת ליום מעלה סיכון למחלת לב ב-‏10%.

שת''פ עם האויב

673039

מר ספקן • בתשובה לג'וד

יום ג', 2/2/2016, 18:09

האפקט של חוסר הדיוק בדיווח של האנשים הוא כנראה לא כזה גדול. אני אתן דוגמה מספרית.
אני מניח שרירותית את המודל הבא:
100,000 איש
סיכוי למחלת לב אצל מי שלא אוכל ביצים 10%.
סיכוי למחלת לב אצל מי שאוכל ביצה ליום 15%, כלומר 50% יותר‏¹.
מספר הביצים שאדם אוכל הוא מספר מקרי בין 0 ל-‏1.
מספר הביצים שאדם מדווח שאכל הוא המספר האמיתי כפול מספר מקרי בין 0.4 ל-‏1.4 (נטיה קטנה לדווח פחות מהערך האמיתי).
אם עושים רגרסיה לינארית, אז במקום עליה בסיכוי של 50% לביצה אחת, נקבל עליה של 39%.

‏¹ יש גם מחקרים שהראו יחס הפוך בין אכילת ביצים ומחלת לב כלילית, ובמטה-אנליזה של המחקרים מקבלים שביצה ביום מורידה את הסיכוי ב-‏1%, כאשר תוצאה זו היא ללא מובהקות. כלומר, לפי המחקרים שנעשו, אפשר לומר שכנראה אין השפעה גדולה (סדר גודל של 50%) של אכילת ביצים. תתכן השפעה קטנה, כאשר יתכן שההשפעה שלילית ויתכן שהיא חיובית.

שת''פ עם האויב

672886

מר ספקן • בתשובה לג'וד

יום ב', 1/2/2016, 8:31

מחקר סין הוא מחקר גרוע, אך כיוון שלפי דעתך זה מחקר טוב, האם בדקת מה מחקר זה אומר על הקשר בין אכילת כולסטרול ומחלות לב?
מחקר סין מצא קשר *הפוך* בין צריכת כולסטרול וכל מחלות לב וכלי דם (כלומר, הייתה פחות תמותה ממחלות אלו באיזורים בהם צרכו יותר כולסטרול). לגבי מחלת לב כלילית, גם היה קשר הפוך (עם מובהקות לאחר תקנון למשתנה הכנסה).

שת''פ עם האויב

672892

הפונז • בתשובה לג'וד

יום ב', 1/2/2016, 9:45

כבר נאמר פה שאין שום סיבה שהשגיאות יהיו אקראיות. אם שגיאות הדיווח של אנשים על מעשיהם ותפיסותיהם היו אקראיות, לא היינו לומדים מכהנמן וחבריו על הטיות אופייניות כאלה ואחרות שניתנות למדידה וכימות. הסיבה שקוראים למשהו ''הטייה'' היא שהשגיאה שהוא גורם איננה אקראית, אלא בעלת כיוון ועוצמה יחודיים.

גם המודל היותר סביר בעינייך שתיארת, הוא שגיאה לינארית של המדידה, ובכיוון מוגדר. ולכן מה שאמר על זה יובל תקף גם כאן. (ולא, יובל לא אמר שהמתאם היה מתמסמס).

שת''פ עם האויב

672918

ג'וד • בתשובה להפונז

יום ב', 1/2/2016, 14:23

אוקי אבל אני שואלת על שגיאה אקראית.
בדיון הקודם שהיה פה אנשים אמרו ששגיאה אקראית כאילו מתקנת את עצמה (אולי אתה אמרת או צפריר), כי יש אנשים שמגזימים כלפי מעלה ויש שמגזימים כלפי מטה, והשגיאות מתקזזות. אני חושבת שזו טעות, שגיאות אקראיות לא מתקנות את עצמן ברגרסיה, הן משבשות אותה.

ספיציפית לגבי אכילה של מזון כלשהו, גם אם קיימת פונקציית שגיאה אין לך מושג מהי, להניח שהיא לינארית זה ניחוש ללא יסוד, ולכן איך לך מושג איך לתקן. אם בכלל קיבלת שקיים מתאם, כי יכול להיות שהשגיאה יצרה מצג שווא של חוסר מתאם.

אני לא דיברתי על פונקציית שגיאה לינארית, כתבתי שיותר סביר שככל שמישהו אוכל יותר בשר, כך אחוז הדיווח שלו כלפי מטה יהיה יותר גדול. זה לא לינארי.

וזה גם לא המקור היחיד לשגיאה, אנחנו מדברים על פרקי זמן של שנים ועשרות שנים, והתזונה של בני אדם משתנה לאורך השנים האלה, לכן הנתונים שאספת מלאים שגיאות לשני הכיוונים.

שת''פ עם האויב

672922

הפונז • בתשובה לג'וד

יום ב', 1/2/2016, 14:56

גם כשמי שאוכל יותר בשר שגיאת הדיווח שלו (כלפי מטה) גדלה, עדיין פונקצית השגיאה היא מונוטונית עולה וכמות הבשר עולה ככל שאוכלים יותר בשר.
גם אם זה יוצא עלייה ריבועית ולא ביחס ישר, זה עדיין לא קשה לעשות לזה רגרסיה לינארית (למרות השם המטעה, רגרסיה לינארית ניתן לעשות גם לפולינומים מסדר גבוה מאחד, בדיוק באותה קלות חישובית).

ושגיאות גדולות - גם אם אקראיות - מצריכות מדגם גדול יותר, אבל עדיין לא משבשות לחלוטין את הרגרסיה (לפחות כל עוד השגיאה לא גדולה משמעותית מהסיגנל - שזה בהחלט לא המצב כאן. אף אחד לא מדווח שהוא אכל במאה וחמישים אחוז פחות ממה שהוא אכל באמת).

שת''פ עם האויב

672925

ג'וד • בתשובה להפונז

יום ב', 1/2/2016, 15:16

אתה מניח שזה שאוכל יותר ידווח על קצת יותר. על סמך מה?
יותר סביר שהוא ידווח כמו זה שאוכל מעט. אם נניח שאגוזי ליום זה מעט, זה שאוכל שני אגוזי ידווח שהוא אוכל אחד, ותקבל שאין קשר בין כמות האגוזי ליום לבין סוכרת.

שת''פ עם האויב

672927

הפונז • בתשובה לג'וד

יום ב', 1/2/2016, 15:34

מעניין, את טוענת ששני אגוזים ליום הופכים מישהו שהיה אמין ב-‏100% כשאכל אגוז אחד ביום, לשקרן גדול. זאת נשמעת לי ספקולציה מופרכת יותר מכל מודל שהוצע כאן, בטח כשאת צריכה לטעון שזה מתקיים בדיוק לעשרות אלפי אנשים.
וזה עוד לפני שהזכרנו שגם מי שאוכל אגוזי אחד ליום, אוכל יותר אגוזי-ם מרוב האוכלוסיה שאיננה אוכלת אפילו אגוזי אחד ליום.
כשאת הופכת את כל הנתונים האלה למספרים גדולים (במיצוע על תקופות ואנשים), הנתונים הופכים להרבה יותר רציפים וקפיצות של אחד לשניים (או שניים לאחד) הן לא רלוונטיות ולא מציאותיות.

ותהייה נוספת - מעבר לאי הסבירות הסטטיסטית או הלוגית, למה את חושבת שאנשים כל כך מתביישים בכמה אגוזים (או ביצים) הם אוכלים? את מבינה שלרוב האנשים אלה פעולות שאין בהן שום בושה ואין שום סיבה עמוקה לשקר לגביהן?

שת''פ עם האויב

672929

שוטה הכפר הגלובלי • בתשובה להפונז

יום ב', 1/2/2016, 15:52

אתה ממעיט בהשפעה של ההונאה העצמית. אנשים נוטים להעריך שהם אוכלים יותר "בריא" (בהתאם למשמעות המעודכנת של "בריא") ממה שהם עושים בפועל, ומדווחים את האמת שהם מכירים‏¹. בדומה, אנשים שמנסים לרדת במשקל נוטים לדווח שהם אוכלים פחות ממה שהם אוכלים באמת וכשהם עורכים יומן אכילה מדוקדק, כלומר רושמים כל מה שהם צורכים בעת האכילה (ולא "אני ארשום עוד מעט"), הם מופתעים לא פעם מהתוצאה. אצל מי שמנסה לעלות במשקל, אותו זן משונה בסכנת הכחדה, נתקלים בתופעה הפוכה בדיוק. לכן אין כאן שקר מכוון או בושה אלא חולשה אנושית מוכרת. אני חושב שג'וד צודקת גם בכך שהטיה מערכתית כזאת, אם לא יודעים לנרמל אותה, אכן פוגעת בתקפות המחקרים.
_____________
‏¹- בניגוד לכמה מהמגיבים באתר, אני בטוח שאתה יודע להבדיל בין טעות לבין שקר.

שת''פ עם האויב

672934

הפונז • בתשובה לשוטה הכפר הגלובלי

יום ב', 1/2/2016, 16:12

אין לי ספק שיש הטיות דיווח משמעותיות. אבל:
א. אני אתפלא אם הן כל כך גדולות ובגודלן ואקראיות בכיוונן כך שהן יחסלו כל קורלציה רבת משתתפים. למשל, כמו שאמרת, "זן בסכנת הכחדה" היא הדרך הפיוטית לומר שהרזים שמגזימים יהיו רחוקים (סטטיסטית) מלקזז את האכלנים המפחיתנים.
ב. הייתי מצפה ממחקרים לעשות מעקב נוסף על דיווח בעל פה, בטח עם כל שלל האמצעים הטכנולוגיים הנגישים לכל אחד מאיתנו היום‏¹.

‏¹ בדיוק השבוע התפרסמה במוסף הארץ כתבה מעניינת ומעוררת מחשבות על אמנית שעוסקת בניטור עצמי בלתי פוסק שכולל את דפוסי האכילה, השנה, ההליכה הנשימה ועוד לאורך 24 שעות ביממה, ולעיתים לאורך שבועות. קל לחשוב איך באמצעים שכוללים את הסלולרי שלך ועוד אולי מדיד קטן אפשר לעשות עליך מעקב כל כך מדויק, שהוא ידע עליך הרבה יותר ממה שאתה (חושב שאתה) יודע על עצמך‏².
למשל, כדי לסבר את האוזן, מדי סוכר רציפים כבר קיימים ונפוצים יותר מעשר שנים, למיטב ידיעתי, וממד כזה הרבה יותר קשה להסתיר את כמות חטיפי האגוזי שאכלת לאורך היום.
‏² קל למשל לדמיין - ובקרוב מאד (אם לא אתמול) גם ליישם - מנגנון שעוקב אחרי כל קניות המזון שלך, רק דרגה אחת מעל הפירוט שקיים כבר עשרים שנה של הקניות בכרטיס הויזה, ויודע בדיוק כמה אגוזי אתה קונה.

שת''פ עם האויב

672941

שוטה הכפר הגלובלי • בתשובה להפונז

יום ב', 1/2/2016, 16:31

א. אני לא טוען שהן מחסלות כל קורלציה, אבל הן מכניסות הטיה מערכתית שאם לא מתחשבים בה עלולה להיות משמעותית.
ב. תתפלא עד כמה הבקרות בחלק לא מבוטל מהמחקרים עלובות.

‏² אבל הוא לא יודע כמה אגוזי אני זורק (או מחלק לחברים של הילדים שלי). הסוּפר יודע כבר היום בדיוק מה המשפחה שלי קונה, בלי להזדקק לטכנולוגיה מסובכת יותר מקורא בר-קוד.

שת''פ עם האויב

672950

הפונז • בתשובה לשוטה הכפר הגלובלי

יום ב', 1/2/2016, 17:02

‏² ראה ‏¹ בתגובה הקודמת.

שת''פ עם האויב

672931

ג'וד • בתשובה להפונז

יום ב', 1/2/2016, 15:59

מה פתאום, אתה אומר את זה לא אני, אני אומרת שכולם טועים ואנחנו לא יודעים איך.
יש כל מיני מקורות לשגיאה, סתם שכחה כי מי זוכר מה הוא אכל בשנה שעבר, הטייה של מזונות רעים כלפי מטה, ושינויים בחיים.

אני טוענת שכל מתאם שקיים במציאות יתבטא בצורה חלשה יותר במחקרים כאלה אם בכלל.
ואם למרות הכל כן נמצא מתאם, לחלוטין לא סביר שזה במקרה, ומאד סביר שבמציאות הוא יותר גבוה. זה מה שרציתי לשאול יובל, האם הוא חותם על המשפט האחרון.

שת''פ עם האויב

672937

הפונז • בתשובה לג'וד

יום ב', 1/2/2016, 16:17

אם נמצא מתאם, אני נוטה להסכים איתך שהוא לא מקרי, ולגמרי לא מסכים איתך שבמציאות הוא יותר גבוה, ונתתי‏¹ כבר כמה דוגמאות מפורטות לתרחישים הפוכים.

‏¹ האמת שאת נתת, אני רק ניתחתי אותם והגעתי לתוצאה הלא חביבה עלייך.

שת''פ עם האויב

672943

ג'וד • בתשובה להפונז

יום ב', 1/2/2016, 16:36

אי הבנה כי טענת שיש מווטוניות, ובמודל שלי אין מונוטוניות.

(והוא רק דוגמה לכך שאפשר לנחש כל מיני מודלים כי אנחנו לא יודעים איך השגיאות מתנהגות, ואין בסיס להדביק להן מודל שנוח לנו )

שת''פ עם האויב

672944

הפונז • בתשובה לג'וד

יום ב', 1/2/2016, 16:45

אבל את זאת שרצתה לטעון (באישור פרופסור מוסמך שעדיין לא ענה) ש''מאד סביר שהמתאם יותר גבוה''. אני הראיתי שיכולים להיות תרחישים אחרים, גם הפוכים, ולכן זה מספיק כדי לערער את הטענה ש''יותר סביר שהמתאם יותר גבוה''. זה לא בהכרח אומר שהמתאם הפוך, כמו בדוגמאות שלי, זה רק אומר שבמקרה הטוב אי אפשר להבחין לכאן או לכאן, בניגוד לטענה שלך.

שת''פ עם האויב

672969

ג'וד • בתשובה להפונז

יום ב', 1/2/2016, 17:54

בגלל זה כתבתי ב"סבירות גבוהה". כי במקרה הממוזל שכל האוכלוסיה על שמניה ורזיה מדווחת שאכלה X% פחות ממה שבאמת אכלה, או על X גרם פחות ממה שאכלה (עד אפס), וכולם אותו X, ולמעשה אין אקראיות, בתסריט כזה המתאם יישאר. אלה המודלים שהצגת, אבל הם יקרו בסבירות נמוכה עד מאד.

אין לנו בסיס לדמיין שום מודל לשגיאות. כל מודל שנדביק הוא מונפץ. אם כבר סביר שהמציאות דומה יותר למודל שהצגתי שבו מי שאוכל יותר נוטה לדווח על פחות, ואלה שאוכלים מעט מדווחים יותר במדויק. וסביר שהמציאות אקראית יותר בגלל תכונות אישיות שמתערבות בדיווח, שיכחה, ושינוי תזונה, ואקראיות ממסמסת את המתאם.

יובל לא ענה על זה בדיוק אז אני מחכה לשמוע, אם הוא ימצא את הידיים והרגליים בשרשור הזה.

שת''פ עם האויב

673016

הפונז • בתשובה לג'וד

יום ג', 2/2/2016, 13:43

אכן נחכה ליובל, אבל יש לי הערה אחרונה:
נראה שאת מנסה לתפוס את המקל משני קצותיו - גם לטעון שהמחקרים האלה לא מדויקים ואמינים בגלל שגיאות המדידה/דיווח, וגם לטעון שכשנמצא מתאם נמוך, בעצם זה מראה על מתאם גבוה. זה לא עובד. אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל.

ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות, אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו.

שת''פ עם האויב

673018

שוטה הכפר הגלובלי • בתשובה להפונז

יום ג', 2/2/2016, 13:47

הטענה היא שהטיות הדיווח פועלות בכיוון של הקטנת האפקט, כך שאם אכן התגלה אפקט למרות הבעייתייות הזאת הרי שהוא חזק יותר במציאות.

שת''פ עם האויב

673019

הפונז • בתשובה לשוטה הכפר הגלובלי

יום ג', 2/2/2016, 13:53

זאת טענה חסרת בסיס. גם הנתונים שהבאת בתגובה האחרונה (מרובת הקישורים) לא נראים שתומכים בטענה הזאת.
לדעתי ג'וד מבלבלת בין גודל האפקט למובהקות שלו, ומזה כל התסבוכת. אפקט של עלייה של 10% יכול להיות הרבה יותר מובהק בניסוי מסוים מאפקט של עלייה של 90%. ההבדל בין שני המושגים דומה להבדל בין הממוצע לסטיית התקן - יותר רעש במדידה מגדיל את סטיית התקן אבל לא את הממוצע. בשביל לטעון שהשגיאה היא עצמה בכיוון מסוים, צריך הוכחות יותר רציניות, בייחוד כשהבאנו דוגמה (די סבירה) שבה הקטנת הדיווח גורמת דוקא להגדלת האפקט.

שת''פ עם האויב

673040

ג'וד • בתשובה להפונז

יום ג', 2/2/2016, 18:10

"אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל"
לא, וזאת הטענה הראשונה שלי, במחקר גדול הסיכוי לקבל במקרה מתאם במקום שהוא איננו קיים, הוא נמוך מאד.

"ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות"
השגיאות המוזכרות - אם כוונתך למודלי השגיאה שאתה הצעת, הם חיפוש מתחת לפנס כי הם ניחושים נוחים בלי בסיס מציאותי, והם אפילו לא פוגמים במתאם.

"אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו."
אתה מנהל איתי תת-דיון שאני לא שותפה לו, איזה תוצאה לא מוצאת חן בעיניי?

שת''פ עם האויב

673080

הפונז • בתשובה לג'וד

יום ד', 3/2/2016, 3:22

בדיון הספציפי הזה, התוצאה שלא מוצאת חן בעינייך, כנראה, היא שיש מתאם *נמוך* בין אכילת ביצים\צריכת כולסטרול לבין הסיכון למחלות לב.

שת''פ עם האויב

673050

יובל נוב (אתר) • בתשובה לג'וד

יום ג', 2/2/2016, 20:18

>> יובל לא ענה על זה בדיוק אז אני מחכה לשמוע

ייקח לי קצת זמן, אבל אענה.

שת''פ עם האויב

673614

יובל נוב (אתר) • בתשובה ליובל נוב

שבת, 13/2/2016, 10:50

התכוונתי לכתוב תגובה מפוארת אבל אני לא מגיע לזה. הנה כמה הערות בכל זאת.

ברגרסיה רגילה, המונח "שגיאה" (error) מציין את המרחק בין ערך ה-y של נקודה לבין הערך על קו הרגרסיה שבדיוק מעל ערך ה-x של הנקודה, כמו בתרשים הזה. ג'וד - את השתמשת במונח "שגיאה" כדי לציין את ההבדל בין ערך ה-x המדווח של נקודה (כמות החלב שאנשים טוענים שהם צורכים) לבין הערך ערך ה-x האמיתי (הכמות שהם באמת צורכים). כדי לשמור על טרמינולוגיה נקייה, בואו נקרא לגודל האחרון "סטיית דיווח". (העניין מתקשר ל-Deming regression, אבל לא בדיוק.)

לא בדקתי ולא ידוע לי על מחקרים בנושא, אבל נראה לי הגיוני מה שג'וד טוענת - שסטיית הדיווח לא מתפלגת סימטרית סביב 0, אלא שהיא בעלת נטייה שלילית, כלומר אנשים נוטים לתת דיווח חסר של צריכת החלב שלהם. אממה, כדי שנוכל לקיים דיון כמותי על המשמעות ההסקתית של התופעה הזאת, חייבים למדל אותה איכשהו. במעלה הפתיל היו שני ניסיונות לעשות את זה, אבל את כתבת "אין לנו בסיס לדמיין שום מודל לשגיאות [= סטיות הדיווח]. כל מודל שנדביק הוא מונפץ." אם ככה, אז פשוט אין איך להתקדם בדיון. גם רגרסיה כשלעצמה היא מודל "מונפץ" - למה להניח שהתצפיות בלתי תלויות? למה קו רגרסיה ישר? למה להתייחס לריבועי השגיאות? כבר שנו חכמים: "All models are wrong, but some are useful".

מה שמסבך עוד יותר את העסק זה העובדה שמשתנה ה-y הנצפה שלנו - התוצאה של צריכת חלב כזו או אחרת - הוא באופן טבעי בינארי: התקף לב כן היה או לא היה‏¹. אנחנו מנסים לאמוד את ההסתברות שמאורע מסוים (התקף לב) יקרה כתלות בערך x כלשהו (צריכת חלב). הווריאנט של רגרסיה שמתאים למקרים כאלה נקרא "רגרסיה לוגיסטית". צריך וריאנט נפרד כי "הסתברות" - הגודל שאנחנו מנסים לאמוד – היא בהכרח בין 0 ל-‏1, וישר רגרסיה רגיל במוקדם או במאוחר יחרוג מהתחום הזה. לכן מקובל לעבוד עם טרנספורמציה (בד"כ פונקציה שנקראת logit) שתטפל בבעיה הזו. אבל ברגע שעובדים עם טרנספורמציות לא לינאריות מתחילות בעיות עם האינטרפרטציה של "מתאם", "שגיאה" (במובן המקורי של המונח, ולא "סטיית דיווח"), ועוד. אז צריך מאד להיזהר בדיון.
______________
1. אפשר לדבר גם על משתנה y שהוא לא בינארי, למשל תוחלת החיים, אבל נדמה לי שהדיון לא הלך לשם.

שת''פ עם האויב

673634

ג'וד • בתשובה ליובל נוב

יום א', 14/2/2016, 6:51

במחקרי תזונה לא לוקחים בחשבון את סטיות הדיווח. כך שלא חשוב אם הסטיות הן אקראיות או מתנהגות לפי מודל כלשהו, כי במילא לא עושים כלום ומתייחסים לנתונים כאמת.
והתהייה שלי היא מה זה עושה למסקנות המחקר.

למשל, אם מודל הסטיות הוא שככל שאוכלים יותר כולסטרול נוטים לבלף בלוף גדול יותר, נקבל שאין מתאם בין כולסטרול במזון לכולסטרול בדם, כי אנשים אוכלים אותה כמות כולסטרול ולחלק מהם יש כולסטרול גבוה בדם ולחלק נמוך. או שנקבל שיש מתאם רק ברמות צריכה נמוכות אבל אם אוכלים הרבה זה כבר לא משנה.
דברים כאלה.

את הפסקה השניה לא כל כך הבנתי. הדוגמה הספציפית בדיון היא רמת כולסטרול במזון לעומת רמת כולסטרול דם, זאת אומרת שזה רציף ולא בינארי. אבל מזמן תהיתי איך מחשבים עלייה בסיכון למחלה למשל, אז אקרא על ה LOGIT הזה.
תודה על התשובה.

שת''פ עם האויב

673005

צפריר כהן (אתר) • בתשובה לג'וד

יום ג', 2/2/2016, 11:58

תיקון מינוח: שגיאות אקראיות מתקזזות (בהסתברות לא רעה) כאשר משתמשים במדגם מספיק גדול. אבל לא כל השגיאות הן אקראיות. אם הדיווח מוטה מסיבה זו או אחרת (והשימוש במילה "מוטה" לא מיועד לרמוז על הטיה פעילה), ההטיות הללו יבואו לידי ביטוי בתוצאות. ליתר דיוק, גם המתאם שאותו אנחנו מחפשים הוא איזושהי הטיה של המדגם במובן מסוים (כלומר: לעומת מדגם שבו אין קשר בין שני המשתנים).

מעבר לכך, בגלל הניחושים הללו שאלתי האם נעשו מחקרים על הטיות הדיווח של אנשים. יש לנו כאן כל מיני אינטואיציות שונות, אבל הרבה יותר טוב להיעזר בנתונים אמתיים כדי לנסות להעריך את השגיאה.

שת''פ עם האויב

673011

שוטה הכפר הגלובלי • בתשובה לצפריר כהן

יום ג', 2/2/2016, 13:24

על הטיות הדיווח של סה"כ הצריכה הקלורית: (המאמר המלא לא נגיש לי, כיאה לדיון בו אנחנו נמצאים). מתוך המסקנות: "We observed a large downward bias in reporting food intake related to social desirability score." אם להאמין לתקציר יש להם גם הצעות לטיפול בבעיה.

הדיווח בנוגע לאכילת פירות וירקות נגוע בבעיה די דומה (בלי להכנס לפרטים, אם הודיעו לנחקרים שהמחקר נועד לבדוק צריכת פירות וירקות הם הגזימו בדיווח בכיוון הזה), הנה. מהמסקנות: "Self-reports of fruit and vegetable intake using either a food frequency questionnaire or a limited 24-hour recall are both susceptible to substantial social approval bias."

יש, כמובן, עוד די הרבה, וגוגל ישמח להפנות אותך. כשתיבת החיפוש היתה "self reporting food consumption bias" הוא מצא יותר משני מליון תוצאות.

ממבט חטוף נראה לי שכאן יש סיכום לא רע של המצב. ג'וד - יכול להיות שחלק מהשאלות שהפנית ליובל נענות שם, כאמור אני רק הצצתי.

שת''פ עם האויב

673020

אריק (אתר) • בתשובה לשוטה הכפר הגלובלי

יום ג', 2/2/2016, 14:27

ראיתי לפני כמה חדשים כתבה מתורגמת (בגלובס, אני חושב) על הטיה כלפי מטה באומדן הקלוריות שיש במאכלים.
הנבדקים העריכו בממוצע את כמות הקלוריות באוכל "לא בריא" גבוה יותר מאשר בארוחה שכוללת את אותו אוכל "לא בריא" בתוספת אוכל "בריא".
לדוגמה הנבדקים העריכו את כמות הקלוריות בארוחה הכוללת צ'יזבורגר וצ'יפס לבד ביותר מאשר בארוחה הכוללת את אותם צ'יזבורגר וצ'יפס וגם מקלות סלרי.

שת''פ עם האויב

673025

הפונז • בתשובה לאריק

יום ג', 2/2/2016, 15:16

מה, לא ידעת שלחסה (וגם לסלרי באותה מידה של בטחון ורצינות) יש כמות שלילית של קלוריות, כי אתה מוציא יותר אנרגיה כדי לעכל אותם מהאנרגיה שאתה מפיק מהם?

שת''פ עם האויב

673032

אנטילופה • בתשובה להפונז

יום ג', 2/2/2016, 16:21

גם לאנטי חומר?

המעי הקטן והמפץ הגדול

673035

הפונז • בתשובה לאנטילופה

יום ג', 2/2/2016, 16:48

בדיוק להיפך, אנטי-חומר שיגע בחלק כלשהוא של מערכת העיכול שלך ישחרר את הכמות ה*מקסימלית* של אנרגיה שניתן להפיק מחומר כלשהוא.

המעי הקטן והמפץ הגדול

673037

אנטילופה • בתשובה להפונז

יום ג', 2/2/2016, 17:27

אה.
אז שעועית זה אנטי חומר?
(וחייב למחזר:האם אנטי פסטה מנטרלת פסטה?)

I'm having a friend for dinner

673038

הפונז • בתשובה לאנטילופה

יום ג', 2/2/2016, 17:49

(בטח, בייחוד כשהם מלווים באיזה קיאנטי טוב)

שת''פ עם האויב

673041

ג'וד • בתשובה לשוטה הכפר הגלובלי

יום ג', 2/2/2016, 18:17

נכון, זה מחקר מעניין על הנטייה לתת תשובות רצויות והוא דן בחלק מהשאלות שמטרידות אותי. העליתי אותו לדרופבוקס.

גם אני קראתי רק ברפרוף, למשל ככל שאנשים אכלו יותר שומן הם דיווחו על פחות.

שת''פ עם האויב

673043

ג'וד • בתשובה לצפריר כהן

יום ג', 2/2/2016, 18:22

אם במציאות יש מתאם, שגיאות יגדילו את הפיזור סביב קו הרגרסיה.
אז מקדם הרגרסיה יישאר אותו דבר אבל המדד של הפיזור (שכחתי איך קוראים לו) יהיה גדול.
אז איך שגיאות מקזזות זו את זו?

שת''פ עם האויב

673081

הפונז • בתשובה לג'וד

יום ד', 3/2/2016, 3:25

מקדם הרגרסיה נשאר אותו דבר בדיוק בגלל שהשגיאות מקזזות זו את זו.

שת''פ עם האויב

673085

ג'וד • בתשובה להפונז

יום ד', 3/2/2016, 4:49

אכן, וזה מה שכתוב בחלק הראשון של המשפט שלי, אבל מה שחשוב זה החלק השני.
מקדם הרגרסיה, כלומר השיפוע של הקו, יישאר, אבל הנקודות לא יהיו מסודרות לאורך הקו אלא מרוחות בפיזור, ופירוש הדבר שחלק גדול מהאוכלוסיה אינה מתנהגת בהתאם למתאם.
יובל יסביר את זה.

שת''פ עם האויב

673088

הפונז • בתשובה לג'וד

יום ד', 3/2/2016, 9:38

ברור שחלק מהאוכלוסיה לא מתנהגת (וחמור מזה - מודדת את עצמה ומדווחת) *בדיוק* על פי המתאם. הרי אחרת אפשר היה לשאול שלושה אנשים ולקבל תוצאה אמינה. בגלל שיש שגיאה ב*מדידה* של האפקט הנמדד, יש את הפיזור הזה. אבל כשלעצמה זו לא "בעייה" כל עוד המדגם מספיק גדול ושיפוע הקו לא נפגע.
כדאי אולי להזכיר שכל מה שמעניין אותנו זה השיפוע של הקו הזה, וכל השאר זה המכשולים בדרך ללמדוד אותו. אם השיפוע לא נפגע, אפשר להכריז שקיבלנו מדידה מוצלחת ולהסיק מסקנות‏¹. גם כשמודדים את מחירי הדיור הממוצעים, נגלה שחלק (אולי אפילו ניכר) מהדירות, ערכן לא עלה בדיוק כמו הממוצע. חלק עלו פחות, וחלק עלו יותר. ועדיין העלייה הממוצעת היא נתון מעניין וחשוב, שלא כדאי להתעלם ממנו בגלל הפיזור של הדגימות שלנו.

‏¹ כמובן שבמקרים קיצוניים עם שגיאות עצומות, זה שם איזה סימן שאלה על התוצאה, זה טריויאלי.

שת''פ עם האויב

673106

ג'וד • בתשובה להפונז

יום ד', 3/2/2016, 12:40

שיפוע זה יפה מאד אבל אנחנו שואלים את עצמנו עד כמה הוא באמת מסביר את ההתנהגות, זאת אומרת בדוגמה שלנו כמה מתוך עליית הכולסטרול בדם מוסברת על ידי עליי הכולסטרול במזון. אם הנקודות מפוזרות במרחקים גדולים מקו הרגרסיה זה אומר שקו הרגרסיה אף שהוא יפה ותלול הוא מסביר מעט מאד, ושיש סיבות אחרות שמשפיעות על הכולסטרול בדם.
אני מדברת בשפת בני אדם ולא בשפת סטטיסטיקאים כדי לא לטעות בשמות, נדמה לי שזה נקרא R.
יובל יסביר לנו איך זה משפיע על מסקנות המחקר.

שת''פ עם האויב

673107

הפונז • בתשובה לג'וד

יום ד', 3/2/2016, 12:59

המשפט השני שלך לא נכון. אבל בואי נחכה ליובל.

חזרה לעמוד הראשי

המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים
RSS מאמרים \| כתבו למערכת \| אודות האתר \| טרם התעדכנת \| ארכיון \| חיפוש \| עזרה \| תנאי שימוש	© כל הזכויות שמורות