|
נתחיל בחידה. בהנחה שבודקים התאמות של של אות לאות המקבילה לה (באותו אינדקס מקום), אז יש סיכוי של 25% ששתי האותיות האקראיות זהות, ולכן אחוז השוני הצפוי הוא בממוצע 75% מהרצף ללא תלות ב-n. אורך הטקסט קובע רק את הוואריאנס (חוק המספרים הגדולים).
עפ"י ההגדרה הזו לשוני בין רצפים, הרצף GATTACAT והרצף TGATTACA הם בעלי 12.5% זהות. אבל אפשר לראות שהם זהים עד-כדי הזזה, כלומר בעלי 87.5% זהות (שבע מתוך שמונה אותיות). לכן הגדרה של אחוז שוני עפ"י התאמת האותיות אחת לאחת לא מתאימה. לכן (אאל"ט) בבדיקת אחוז רצפים חוזרים בין שתי דגימות DNA, מחפשים התאמות בין הרצפים השונים ומודדים את אחוז הרצפים בעלי התאמות מתוך כלל רצפי ה-DNA.
ואם נחזור לחידה, במקרה הזה הפתרון תלוי באורך הנדרש לקביעת "התאמה" של שתי תת-מחרוזות, ובכללים לכך (למשל מונוטוניות של סדר תת-המחרוזות).
|
|