|
||||
|
||||
אני שואלת שוב באותו עניין כי אני לא מוצאת תשובה. הבעיה של מחקרים תצפיתיים על תזונה, שנערכים על פני עשרות שנים, היא האמינות הנמוכה של הנתונים שלהם. המחקרים האלה הם גדולים וכוללים אלפי אנשים, הנתונים נאספים בנקודת זמן כלשהי דרך שאלון מפורט שמציגים למשתתפים ובו הם מפרטים כמה הם אכלו מכל מוצר במשך השבוע האחרון למשל. ואז עוקבים אחרי בריאותם לאורך שנים דרך נתוני מערכות הבריאות או אמצעי אחר. לפעמים מתשאלים שוב, אבל יש הרבה אי דיוק בדיווחים האלה כי אנשים לא זוכרים מה הם אוכלים, נוטים מטבעם לדמיין שהם אכלו פחות ממה שאכלו באמת, ואנשים משנים את התזונה שלהם פרקי זמן שונים, עושים דיאטה, מתאהבים באיזה מאכל, עוברים לארץ אחרת, מתחתנים. במצב כזה גם כאשר במציאות יש קורלציה גבוהה בין שני דברים, במחקר זה יבוא לידי ביטוי בצורה הרבה יותר חלשה, אם בכלל. למשל במחקרים על הקשר בין כולסטרל בתזונה לכולסטרול בדם, גם אם במציאות יש קשר ישיר, במחקר הקורלציה נוטה להתבדר בגלל השגיאות, ואו שלא תימצא קורלציה כלל ואז לא נוכל ללמוד כלום מהמחקר, או שבמקרה הטוב כן תימצא קורלציה, אבל היא תמיד תהיה נמוכה מהקורלציה האמיתית. מישהו מכיר מאמרים שדנים בסוגיה הזאת? |
|
||||
|
||||
מה שאת אומרת נשמע נכון מאד, אלא שמתודולוגיה זה לא סקסי וממש הפוך מכותרת לעיתון. אני בטוח שיש הרבה מאמרים שדנים במתודולוגיה אבל הנראות שלהם נמוכה. |
|
||||
|
||||
אני רואה את הבעיה טיפה אחרת, ואני מקוה שיובל נוב יבוא לתת לנו את חוות דעתו. באופן כללי, מאחר והמחקרים התצפיתיים אלה נעשים על עשרות או מאות אלפי אנשים, אי הדיוקים שלהם אמורים פחות או יותר לבטל זה את זה, כך שהם לא בהכרח יפחיתו את גדול האפקט הנמדד. אבל זה בתנאי שהאי-דיוקים הם אקראיים, כלומר מתפלגים סימטרית לשני הכיוונים סביב האמת. מה שקורה בשאלונים רבים הוא שהציבור מרמה - בעיקר את עצמו - לכיוון של מה שנתפס אצלו כ"התנהגות טובה" או "בריאה". לכן, למשל, רוב האנשים שסובלים מעודף משקל מדווחים שהם אוכלים פחות ממה שהם באמת אוכלים (יש מחקרים - לא תצפיתיים - שבדקו את זה), אנשים בתת משקל מדווחים על צריכת מזון מוגזמת, וכד'. בענייני שומן רווי וכולסטרול סביר שהדיווח באמת מוטה לצד המפחית, בעיקר אצל צרכני כולסטרול מובהקים, ולכך יש השפעה אמיתית על התוצאות. אי לכך אני מציע לך לא להתחיל לזלול בשר :) |
|
||||
|
||||
אי דיוקים שמבטלים את את השני ימחקו את הקורלציה. אני טועה? |
|
||||
|
||||
לא ימחקו את הקורלציה, הם ימחקו או יקטינו את שגיאת המדידה של אותה קורלציה. |
|
||||
|
||||
מה לא מובן? יש גודל נמדד (למשל קורלציה בין שני משתנים), ויש אי דיוקים שנובעים מהמתודולוגיה. מה שהשוטה אמר, זה שגורמים מסוימים, למשל גודל המדגם, מקטינים את אי הדיוקים האלה, אבל זה לא מקטין את הגודל הנמדד - הקורלציה במקרה הזה. נהפוך הוא, הקטנת אי הדיוקים דוקא הופכת את הקורלציה למובהקת יותר. |
|
||||
|
||||
היי שכ"ג, בדיון שהיה בנושא הזה הבאת קישור למחקר פסיכולוגי על כך שאנשים נוטים לדווח בצורה "מנומסת", כלומר למשל לדווח על פחות בשר ממה שהם באמת אוכלים. אני לא מוצאת את הקישור הזה, אתה זוכר איפה הוא? |
|
||||
|
||||
לא זוכר על מה מדובר בדיוק, אבל אני חושב שכאן תוכלי למצוא לפחות מצביע למה שאת מבקשת. למתעניינים: מוטב לפנות אלי בדואר ולא בהודעות באייל. |
|
||||
|
||||
זה לא זה אבל זה בכיוון, תנק יו ורי מאץ' |
|
||||
|
||||
לדוגמה שני משתנים, כמות הקלוריות ומשקל עודף. שואלים אנשים כמה קלוריות הם אוכלים ליום ושוקלים אותם. אנו מניחים שבמציאות יש בין המשתנים קשר מתימטי לינארי. מציירים את הנקודות על גרף כשבציר X קלוריות ובציר Y משקל עודף. כדי למצוא את הקורלציה אנו מחפשים את הפונקציה הלינארית הכי טובה שמחברת את הנקודות, זאת אומרת עושים רגרסיה לינארית. אם האנשים היו נותנים נתונים מדויקים היינו מקבלים קו שהנקודות נמצאות צפוף לאורכו. אבל כשמדובר במה הם אכלו אנשים טועים, גם באופן אקראי וגם באופן לא אקראי זאת אומרת נוטים להמעיט בכמויות הדברים "הרעים" שהם אכלו. נניח שהם טועים רק באופן אקראי והטעויות מאזנות זו את זו, אז נקבל את אותה פונקציה לינארית, אבל הנקודות יהיו מפוזרות סביבה בפיזור גבוה. מה פירוש פיזור גבוה, פירושו שהמרחקים בין הנקודות לבין הקו הישר הם גדולים, זה מה שמודד מקדם הקורלציה. הוא היה אמור להיות קרוב ל-1 אבל נקבל מספר נמוך יותר. במקרה קיצוני המסקנה המחקרית תהיה: ככל הנראה יש קשר בין קלוריות למשקל עודף אבל קשר די חלש ולא צריך להיכנס לפניקה ולעשות שינויים מפליגים בדיאטה. אם בציר X נשים משהו עדכני יותר כמו בשר מעובד ובציר Y תחלואה בסרטן, נקבל שיש ביניהם מתאם חלש בהרבה ממה שהוא במציאות. המסקנה האינטואיטיבית שלי היא שבמחקרים תצפיתיים שמסתמכים על עדות של אנשים על פרטי פרטים של מה שהם אכלו, כל קורלציה שתימצא היא נמוכה בהרבה מהמציאות. האם אכן זה מה שקורה, האם מישהו עשה מחקר השוואתי כזה בין קורלציה במציאות לבין קורלציה שמתקבלת במחקרים, ואם זה נכון מה עושים עם זה. נראה לי שאי אפשר לטפל בזה מתוך הסטטיסטיקה כי היא לא יכולה לספק יותר מידע ממה שיש בנתונים שהיא קיבלה, אבל איך החוקר שעושה שימוש בסטטיסטיקה אמור להתייחס לזה. כיום מתייחסים למספרים האלה כעובדת טבע. |
|
||||
|
||||
תיקון כותרת: עד שאנחנו מחכים ליובל נוב |
|
||||
|
||||
עד יכונן ועד ישים את ירושלים תהילה בארץ |
|
||||
|
||||
דיווח לא מדויק של המשתתפים גם משפיע על הערפלנים ולכן גם על התיקון שלהם. בנוסף, יש ערפלנים שלא נבדקים כלל. היו כבר מקרים שבהם קורלציה חזקה במחקרי תצפית התבררה ככנראה לא נכונה לאחר שנעשו מחקרי התערבות בנושא. |
|
||||
|
||||
רעש מדידה קיים באינספור תחומים, מהמדעים המדויקים ועד אלה שפחות. לשמחתנו, הוא לא מאפס את יכולתנו להפיק תוצאות כמותיות על אף הרעש, ויש אלפי ספרים ומחקרים שמתמודדים עם הנושא בהצלחה. מתאם בין שני משתנים לא יתקרב ל-1, כל עוד יש (ובענייני תזונה ובריאות יש המון) משתנים נוספים שמשפיעים על התוצאה (משקל בדוגמה שלך). אבל אין שום צורך במתאם 1. גם מתאם נמוך יותר עדיין יכול להראות בקלות על הקורלציה הרצויה. לא לחינם, אחרי כל רעשי המדידה, הגיע המחקר למסקנה כמותית - שהיא, דא עקא, שבשר מעובד מסוכן פי מאה(!) פחות מעישון כגורם לסרטן - לגבי הקורלציה הנ"ל. ייתכן כמובן ויש איזו הטייה שיטתית מחלישה לגבי הקורלציה, אבל מכאן ועד פסילה גורפת של כל מחקר שהוא הדרך ארוכה. |
|
||||
|
||||
שוב: מהו בשר מעובד? האם צריך להתייחס באותה מידה לבשר מומלח, בשר משומר עם (חומר א'), בשר משומר עם (חומר ב'), בשר משומר עם צמח שימור (לדוגמה: נדמה לי שפלפל. תערובת של חומר א' וחומר ב') ובשר מעושן? ומה לגבי כל הירקות המוחמצים? האם צריך להתחיל לסלק אותם מדוכני השווארמה מכיוון שהם לא בריאים? (טוב, נו, בסדר. יש שם משהו בריא?) |
|
||||
|
||||
אולי פי 50 פחות מעישון ולא פי 100 לפי הדוח של WHO, אבל ההערכה שלך הרבה יותר סבירה ממספרים אחרים שראיתי במאמרים מדעיים, פסאודו מדעיים יותר נכון. בלי קשר לפי כמה, הציטוט שלך הוא דוגמה לבעייתיות שאני שואלת עליה. אתה משווה את גובה המתאם בין בשר מעובד לסרטן לגובה המתאם בין עישון לסרטן - עישון הוא משתנה שנמדד באופן אובייקטיבי למדי, אדם יודע להעיד כמה סיגריות הוא מעשן, חצי קופסה, קופסה, 5 סיגריות ליום, זה דבר קבוע פחות או יותר שלא תלוי בתעתועי הזכרון. זהו גם משתנה בדיד שאיננו חלק מצרור משתנים אחרים, הרי לפעמים אדם בכלל לא יודע שהוא אכל בשר מעובד, וזה עוד יותר גרוע כשמנסים לבדוק כמה כולסטרול הו אכל כי הוא לא יודע. כלומר, הקורלציה במחקר חצפיתי על הקשר בין עישון לסרטן נותנת אוטומטית מקדם מתאם גבוה יותר, מאשר המתאם בין בשר מעובד לסרטן, ובכל זאת אתה משווה בין המתאמים שהם אשכוליות ותפוזים, ואומר פי מאה. |
|
||||
|
||||
מה שאת אומרת זה שאין בכלל נתונים. כלומר אין לארגון הבריאות העולמי סיבה לצאת בהמלצה הזו. |
|
||||
|
||||
אגב, אם אנשים נוטים להמעיט בכמויות הדברים ה"רעים", זה דוקא יגרום למחקר להגיע לתוצאות חמורות יותר - העלייה של 18 אחוז בסיכון לסרטן תיזקף לזכותם של חמישים גרם ביום במקום המאה גרם האמיתיים. מה שאומר שהסיכון במציאות נמוך יותר מתוצאות המחקר. |
|
||||
|
||||
זה נכון במצב שאתה יודע מראש שיש מתאם בין שני המשתנים, ויודע גם מה גובהו. אבל זה לא המצב, אם אתה לא יודע אם בכלל יש מתאם ובטח לא מה גובהו, אתה תסיק שאין מתאם וסרטן לא תלוי בבשר מעובד, כי גם אנשים שאוכלים ממש טיפה לוקים בסרטן. |
|
||||
|
||||
למיטב הבנתי (אני מניח שמומחים גדולים ממני יתקנו אותי) אנחנו מדברים כאן על הסתברויות. גם במקרה של קרציוגנים מובהקים יותר כמו השתוללות על דשא (סליחה: עישון, ושאיפת עשן אזבסט) ההסתברות שמעשה אחד כזה יגרום לגידול סרטני היא מאוד נמוכה (מכיוון שיש עד כמה דברים שצריכים לקרות בין מוטציה בודדת שמושרית על ידי הפעולה לבין גידול סרטני פעיל1 ומכיוון שלגוף יש מנגנוני תיקון. לכן מנסים לכמת את ההסתברות של פעולה (בתדירות מוגדרת) כזו להשרות גידול סרטני מסוג מסויים (ככל שהתדירות עולה היכולת להשרות חזקה יותר). אני מניח2 שאין נזק משמעותי בסיגריה פעם בשנה: הנזק ממנה זניח יחסית לגורמי סיכון אחרים ויחסית לתועלת (הפסיכולות הפוטנציאלית, לדוגמה). תוספת סיכון של 18% אינה תוספת סיכון גבוהה במיוחד (מדובר על תוספת סיכון לאורך כל החיים)3. אני מניח (לא בדקתי את הנתונים המקוריים) שברמות נמוכות יותר קיבלו תוספת סיכון נמוכה בהרבה ודי זניחה (אם בכלל קיימת). 1 זכור לי שהיה גם מאמר באייל על מה שצריך לקרות. אבל אין לי כוח לחפש כרגע. בפרט נדרשות כמה מוטציות. אני אתעלם במשפט הזה מהפרט הטכני הקטן הזה. אבל לא בהמשך. 2 לא בדקתי את הנתונים ויכול להיות שגם עישון סיגריה אחת בשנה עדיין משמעותי. אם כך צריך להוריד את התדירות. 3 אבל אני לא טוען שלא מדובר על תוספת סיכון לא מובהקת. |
|
||||
|
||||
בכלל, 18% ממה? אם הסיכוי של צמחוני לקבל סרטן מעי הוא 0.000001% לאורך כל חייו, אני לא חושב שעליה של 18% צריכה באמת להדאיג מישהו. |
|
||||
|
||||
לפי סרטן המעי הגס [ויקיפדיה] זהו סוג הסרטן השלישי בשכיחותו, והשני בגורמי המוות הסרטניים בעולם המערבי. אתה מוזמן למצוא נתונים מדוייקים יותר, אבל נראה שזה לא זניח. |
|
||||
|
||||
הגעתי. קודם כל דיסקליימר: אני לא מומחה בתתי-התחומים הסטטיסטיים הרלוונטיים לדיון הזה (ניתוח נתוני אורך, ניסוח שאלונים, מחקרי תזונה). אני חושב שאת מבלבלת בין שני מושגים: מקדם קורלציה ומקדם רגרסיה. בניסוח לא פורמלי, ובהקשר המקובל של רגרסיה לינארית פשוטה (כלומר חד-משתנית), קורלציה מודדת כמה צפוף הנקודות מונחות סביב קו הרגרסיה. לקורלציה יש תכונה שהיא אינווריאנטית לטרנספורמציות לינאריות, כלומר corr(aX + b, Y) = corr(X, Y) המשמעות המעשית היא שבין אם הנשאלים היו מדווחים במדויק על כמות הקלוריות שהם צורכים, ובין אם כולם היו משקרים ומדווחים בדיוק על חצי (נניח) מהכמות האמיתית, היה מתקבל בדיוק אותו מקדם קורלציה.אבל הגודל שאני חושב שמעניין אותך הוא לא הקורלציה, אלא מקדם הרגרסיה, שהוא השיפוע של הישר ("האמיתי") שסביבו מפוזרות הנקודות. ככל שהישר הנ"ל תלול יותר, כך הגדלה של צריכת הקלוריות היומית ביחידה אחת תגדיל (בממוצע) במידה רבה יותר את המשקל. שקרים או טעויות בדיווח אכן ישפיעו על האומדן למקדם הרגרסיה. תרצי אולי לנסח את השאלה שלך שוב, תוך אבחנה בין שני המושגים האלה? ובהקשר של תגובה 651191: כתבת "הפונקציה היא לינארית אצל כל אדם", ואני משער שהתכוונת "לינארית אבל אחרת אצל כל אדם". זה כמובן נכון הרבה פעמים, אבל ברגע שמכירים בכך, אין פה שום בעיה סטטיסטית. גגלי "random effect model" וראי איך מטפלים במודל שכזה. |
|
||||
|
||||
השאלה הראשונה היא על מקדם הקורלציה. נניח שכל אלפי המשתתפים טועים בדיווח שלהם לכל הכיוונים, גם למעלה וגם למטה בצורה אקראית. מקדם הרגסיה a לא ישתנה, כלומר הקו יהיה באותה זווית כמו קודם, אבל הנקודות יהיו מפוזרות במרחק משני הצדדים שלו ומקדם המתאם יהיה נמוך. הסטטסיטיקאי של המחקר לא יכול להתעלם ממקדם הקורלציה הנמוך ולומר שעל כל עליה X בבשר מעובד יש עליה aX בסרטן. מה הוא עושה עם זה? אני מניחה שהוא ישקלל את זה בכל מיני כלים מסובכים ויקבל a נמוך ממה שהוא באמת. למעשה במחקרים כאלה אנחנו מעוניינים בשיעור הסיכון RR, אינני יודעת איך מחשבים אותו אבל מניחה שאותה שגיאה התחלתית תתבטא בכל התוצאות, זה לא יכול להיות אחרת. נכון? ואז יתפרסם שכל 50 גרם בשר מעובד מעלים סיכון לסרטן ב-18%. אוקי, זה המספר הטוב ביותר שהצליחו לקבל מהנתונים, אבל אי אפשר להשוות את המספר הזה לשיעור עליית סיכון בגלל עישון שהוא הרבה יותר קרוב למציאות. אני צודקת? זאת בעצם השאלה שלי. המצב במציאות הוא גרוע יותר כי הטעויות אינן אקראיות, ודווקא מי שאוכל הרבה ממשהו רע ידווח על פחות, זאת אומרת שגם מקדם הרגרסיה יימעך. תודה יובל שזכרת גם את השאלה הקודמת שלי מפעם, גיגלתי random effect model. קצת שכחתי מה היה הסיפור עם זה, למיטב זכרוני אפשר ליישם את זה על מחקר כולסטרול אם עושים לכל משתתף בדיקה קלינית מקדימה כדי לראות את התגובה שלו לכולסטרול במזון. אני לא יודעת אם זה ריאלי למחקר תצפיתי. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |