|
||||
|
||||
סופר לי, מפי מישהו שהתאמן איתו, כי סרגיי בובקה שבר את השיא העולמי בקפיצה במוט כדבר שבשגרה, ובמידה ניכרת; בתחרויות רשמיות הוא שבר את השיא הקודם (שלו-עצמו) כל פעם בסנטימטרים ספורים, ולא קפץ מייד לשיא האישי שלו, וזאת משום שכל שבירה של השיא היתה מזכה אותו במענקים... כלומר, גם אם היו עדים לשבירת השיא במהלך האימון, וניתן היה להכיר בו כשיא רשמי, בובקה לא היה מעוניין בכך. בדיקה זריזה מראה שבסך-הכל, בובקה שבר את השיא העולמי 35 פעמים. (זכרון עמום טוען שכבר סיפרתי את זה פעם באייל, אבל לך תסמוך על מנוע החיפוש הארור). |
|
||||
|
||||
נסה לחפש EPO בתגובות של אורי. זה היה בדיון הראשון על הסמים שלוקח (או לא) ארמסטרונג. |
|
||||
|
||||
כל עוד האחראי עליו מסרב לוותר על האפשרות לחפש מחרוזות ולא רק מלים שלמות, אנחנו נאכל קש וגבבה. למה לא קם מישהו מבעלי האתר ו*מכריח* אותו לספק גם אופציה של חיפוש מלים שלמות, חיפוש שיסתייע באינדקסים מתאימים במאגר הנתונים ויתבצע תוך שניות בודדות? הה, למה? |
|
||||
|
||||
כי בחיפוש מילים שלמות, אם היית מחפש "אחראי", לא היית מוצא את התגובה שמעלי. (לא, מנגנון של "גם וגם" לא יקום ולא יהיה. מנגנון מבוסס אינדקס יקום, מייד כשאמצא את פרץ האנרגיה הדרוש. האמת היא שעד לא מזמן, הבעיה היתה נפח דיסק על השרת, לצורך כל האינדקסים האמורים; כיום הבעיה היחידה שנותרה היא עצלות). |
|
||||
|
||||
אבל במנוע הקיים גם אם אני מחפש ''האחראי'' אני מקבל אצבע משולשת, וגם זאת רק אחרי דקות ארוכות של כסיסת ציפורניים. (על מניפולציות די טריויאליות על אותיות היחס אני פוחד לדבר) |
|
||||
|
||||
אם כבר הנושא עלה, מה עדיף, מבחינת מהירות החיפוש, לחפש מילים ברצף או מילים סתם ( בהנחה שאני יודע את הביטוי המדיייק)? האינטואיציה שלי אומרת ללכת על כל הביטוי, אבל אני יכול לתאר לעצמי מצב הפוך. |
|
||||
|
||||
תודה. ועכשיו אנכס את השאלה למטרותי הנלוזות: למה אמרתי שאולי חיפוש מספר מילים בודדות עשוי להיות יותר מהיר? כי בעצם לא מדובר כאן במנוע "חיפוש" אלא במנוע "פסילה". די ברור שרוב החיפושים אינם על צירוף שכיח ( למשל "פושעי אוסלו לדין" או "בונובו") אלא על רצפים יותר נדירים כמו "טל כהן שולת!!!". הנה רעיון שחשבתי שהוא נורא מקורי, עד שהתברר לי שכבר הומצא (בבנקי דם): נניח שמחפשים באוכלוסיה גדולה מחלה יחסית נדירה, (כמו איידס, או סמים ) ויש הרבה מאוד דגימות לבדוק. האם לא עדיף לקחת (נניח) חמישית מבחנה מכל בדיקה, ולערבב יחד, ולבדוק את הערבובים? תוצאה שלילית על התערובת תשלול את התופעה על כמות גדולה של מבחנות. נניח ש"קיט" לבדיקת סמים הוא רגיש לחלק אחד מתוך מליון של סם בדם, אבל דמו של מסומם מכיל פי מאה יותר. אזי ניתן לערבב ללא חשש כמאה דגימות ביחד ובבדיקה אחת *לשלול* את כולם. כמובן שבמקרה של תוצאה חיובית יש לבדוק באופן פרטני את כל מאה המבחנות, אבל מכיוון שמדברים על תופעה נדירה, רוב הזמן אנחנו מורווחים. איך זה מתקשר למנועי חיפוש? אין לי מושג איך הדברים האלו עובדים באמת, אבל אני יכול לתאר לי מנוע שבונה רשימות מילים של קבוצות של הודעות, וכאשר יש חיפוש על "ראובן זייטק זכה בפרס נובל בכלכלה" מחפשים בכל קבוצה את המילים, ורק אם מוצאים בקבוצה את כל המילים, ממשיכים באופן פרטני הודעה הודעה. השאלה מה גודל קבוצת ההודעות היא שאלה אחרת, היא צריכה להיות מספיק גדולה כדי שיהיה חיסכון בחיפוש ( כי מספר המילים ה*שונות* ב100 הודעות הוא פחות מ100 פעמים מספר המילים השונות בהודעה אחת) אבל לא כל כך גדולה כך שמילים נדירות מכמה הודעות יהיות מוכלות בקבוצה. למשל, אם הסיכוי ש"ראובן" מופיע בהודעה כלשהי היא אחד ל100 ו "כלכלה" גם 1 ל 100, אם נחזיק בסביבות 100 הודעות בקבוצה, יש סיכוי טוב שברוב הקבוצות לא יימצא "ראובן" +"כלכלה" . אבל אולי עם קצת ניסוי וטעיה ( והתפלגות זיפף של מילים) אפשר למצוא גודל סביר. אתם מוזמנים לשלוח את התמלוגים לדוא"ל שלי. |
|
||||
|
||||
יש על העקרון הזה חידה חביבה, עם חביות יין, רעל ונידונים למוות. מכיר? |
|
||||
|
||||
לא , אבל אני יכול לתאר לעצמי. בטח צריך לזהות את החבית המורעלת בכמה שפחות נזקי גוף. |
|
||||
|
||||
ואם אני כבר בשוונג- עוד רעיון באותו כיוון ( בטח גם על זה יש חידה) - אפשר לסדר את המבחנות בצורת ריבוע או קוביה, ולערבב רק מבחנות מאותה שורה, וכך על ידי חיתוכים, לזהות את המבחנות הנגועות. |
|
||||
|
||||
מה הפיתרון לחידה זו? |
|
||||
|
||||
אתה צודק שעושים זאת בבנקי דם. בצרפת היתה שערורייה לאומית אחרי שכמה אנשים נדבקו באיידס מערויי דם; הסיבה, אם אני זוכר טוב, היתה שמישהו יזם את החיסכון שהצעת בלי לבדוק את הרגישות של הערכה. הטומוגרפיה כנראה מיותרת: זה כל כך נדיר עד שאין טעם להשקיע בתשתית הדו-ממדית, ועדיף פשוט לבדוק חד-ממדית את האצוות החיוביות המעטות. |
|
||||
|
||||
בצרפת היתה באמת שערוריה אבל זה כי (עכש"י) הם לא בדקו *כלל* את העירויים. אגב, זה איכשהו מתקשר לי לשיטות של סלרה- בודקים כל מיני תת רצפים ואחר כך מנסים לחבר הכל ביחד. |
|
||||
|
||||
יכול להיות שאני מבלבל בין סיפורים שונים. אני לא בטוח שאני רואה ממש אנלוגיה לשיטת הריצוף של סלרה... |
|
||||
|
||||
הבעיה היא שבחיפוש הקיים (ללא אינדקס), החיפוש אחר ''ראובן'' עולה בדיוק כמו החיפוש אחר ''ראובן זייטק זכה בפרס נובל בכלכלה'' (טוב, כמעט בדיוק, אבל ההבדל בטל בשישים אלף). |
|
||||
|
||||
אה, טוב. אני יש לי רעיון, את הביצוע אני משאיר למהנדסים. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |