|
||||
|
||||
נראה לי שלפחות בתחום המחשבים אין קשר ישיר בין פטנטים לבין חדשנות. יש הרבה חדשנות ללא פטנטים. למרבה הצער יש גם פטנטים ללא חדשנות. נראה לי שבאופן כללי רישום פטנטים הוא מעמסה כלכלית לא מבוטלת על כל מיני חברות טכנולוגיה. |
|
||||
|
||||
אין טעם שאחזור פעם שלישית על מה שאמרתי. |
|
||||
|
||||
אני לא מבינה איך הסיפור הזה עובד. בימי ההיי טק שלי שגעון הפטנטים לא הגיע לממדים של היום, אבל בכל זאת אנשים רשמו פטנטים על דברים שנראו לי הזויים, כמו, נניח, שימוש ב-XOR באלגוריתם ההסתנכרנות של השמרגלה על המחוטל (זה באידיש). אלה לא דברים שמתכנת אקראי לא עשוי לחשוב עליהם בעצמו, אז אסור לו להשתמש בשיטה הזאת? |
|
||||
|
||||
הוא היה צריך לרשום אותם כשהוא חשב עליהם. אם הוא לא עשה את זה קודם אז אסור לו. אם הוא לא יודע שיש על זה פטנט ומשתמש בזה בכל זאת אז החברה שלו חשופה לתביעה. למרבה המזל, אף אחד לא יעשה הנדסה-לאחור של הקוד כדי לזהות שימוש בדברים טריביאליים כאלה, כך שסביר שאיש מבעלי הפטנט לא ידע על זה לעולם. |
|
||||
|
||||
ליתר דיוק: בגלל הכמות הגדולה של הפטנטים בתחום ורמתה הכללית, ניסוח מחדש של דבריך: זה שמישהו אחר כבר חשב עליהם, לא מונע ממך לרשום על זה פטנט. יש סיכוי סביר שמוצר שעושה משהו חדשני יחסית משתמש בכל מיני פטנטים. לא ממש משתלם לחפש אותם, כי לא בטוח שגם חוקר פטנטים שמכיר את החומר ימצא אותם. עדיף פשוט לקוות לטוב. קורה שבעלים של פטנט מתחיל לתבוע. במקרה הזה לפעמים עדיף להשקיע משאבי פיתוח נוספים כדי לעקוף את הפטנט ולפעמים עדיף לשלם את המס ישירות. תזכורת: תגובה 569839 (ואם מישהו לא ראה קודם את הדיון זה? רעיון?, אפשר לקרוא גם אותו). |
|
||||
|
||||
אני חושבת שהרעיון עקום מיסודו ומשרד הפטנטים לא היה צריך לקבל פטנטים בתוכנה. תוכנה היא בהגדרה מקצוע של יצירה מתמדת, די דומה ליצירת אנימציה. האם חברות אנימציה יגישו פטנט על - מה זה יכול להיות? - נגיד התפוגגות של דמות אחת לתוך דמות אחרת? לכל היותר הם יכולים להגיש על זה בקשה לזכויות יוצרים, שבעצם עומדות להם מרגע שפרסמו את היצירה. מתכנתים יוצרים נקרא לזה "מחשבות", יש מתכנתים מוכשרים רבים ובדרך הטבע רבים מהם יעלו תוך כדי עבודתם על אותו רעיון. יש משטרה על מחשבות? ובתוכנה, להבדיל מאנימציה, רוב האלגוריתמים הם נסתרים מהעין לכן אפילו זכויות יוצרים אי אפשר לבקש עליהם. אולי רק על מימשקים כמו פס התקדמות (נדמה לי שביקשו על זה פטנט), אבל גם זה לא מוצדק בעיניי, מתכנתים המחישו התקדמות בכל מיני שיטות יצירתיות, ופס התקדמות הוא אחד מהם. אם מישהו בנה אלגוריתם טוב או אפליקציה טובה - שימכור אותה וישתכר בדרך כזאת, אבל לא דרך פטנטים. |
|
||||
|
||||
אם מישהו המציא "אלגוריתם" טוב וחדשני, ואסור לו להוציא עליו פטנט, הוא אינו יכול לפרסם אותו (אחרת ישכפלו אותו בקלות), ו"למכור" את האלגוריתם בלי זכויות של פטנט נשמע לי חסר משמעות כי אם הוא ירצה למכור אותו יותר מפעם אחת הוא צריך הגנה משפטית (כדי שהמכירה הראשונה לא תהיה האחרונה), ואם יש כזאת, אז למה לא כפטנט? פטנט לא רק מעכב התפתחות הוא גם מאפשר לכל העולם לחלוק בידע הזה במועד מאוחר יותר, זה עדיף על מצב בו הממציא אינו מוציא פטנט אבל שומר אותו לעצמו או מחתים לקוחות על חוזים משפטיים דרקוניים, שמונעים העברת הידע לכלל. ראי למשל: מישהו המציא אלגוריתם שמייעל שיטת עבודה קיימת בעד פי 4, הוא לא הוציא עליה פטנט, והגילוי של האלגוריתם הגיע לידיעת הציבור במקרה לפחות 12 שנה אחרי ההמצאה. באותה מידה הידע הזה יכל להיעלם בתהום הנשייה. |
|
||||
|
||||
הידע האמור הגיע לציבור 5 שנים לאחר ההמצאה, כחלק משחרור קוד המקור של המנוע של Quake 3. אם היה נרשם על זה פטנט היית רואה תיאור משפטי מסובך (אבל ללא שום קוד מועיל) ואחרי עשר שנים איזשהו טרול אולי היה נזכר לתבוע מישהו שהמציא מחדש שיטה דומה. |
|
||||
|
||||
אולי אני טועה, אבל ביל גייטס התעשר מתמלוגים על DOS בלי לרשום פטנט. בכל מקרה אני חושבת שאין צורך להיכנס לדקויות, שוק הפטנטים בענף התוכנה הוא ההוכחה שאיפשהו יש טעות. אתה מכיר עוד שוק שפטנטים פועלים בו ככה? |
|
||||
|
||||
את מכירה עוד שוק בו חברה שלא מייצרת כלום וחסרת כל מודל עסקי שווה תל״ג שנתי של מדינה בינונית? |
|
||||
|
||||
:-) לא, בחיי שלא, מה זה הסכומים האלה, לדעתי אף אחת מהרכישות - החל מלפני 15 שנה או כמה שזה היה כשסיסקו התחילה לקנות כל מה שזז ועד עצם היום הזה - אף אחת מהרכישות האלה לא הניבה רווח לקונה. אתה יכול להסביר את הדברים האלה? |
|
||||
|
||||
לא ואני לא חושב שמישהו יכול אבל למה לקנות 100 פטנטים במחיר נקוב של 10000$ per patent כשאפשר להכות את השוק ולקנות את כל החברה ב30 מיליארד... מצד שני למה לקנות שני גביעי קוטג׳ במחיר שעת שכר מינימום כשאפשר לגדל פרה בממ״ד. עכשיו אני רק צריך מתכון טוב להכנת קוטג׳ ואני אראה לתנובה מאיפה משתינה העז. |
|
||||
|
||||
מיקרוסופט לא נגעה בפטנטים עד 1993. אז היא נעקצה בתביעת פטנטים (Stac Electronics#Microsoft lawsuit [Wikipedia]) ומאז החלה לאגור פטנטים. מה עוד קרה בשנת 1993? התברר שאלגוריתם דחיסה פופולרי מוגן בפטנט: |
|
||||
|
||||
יש אנשים שמוכרים קטעי תוכנה, סקריפטים, תבניות של UX ועוד. לתאגידים לפעמים כל הפיצ'קעס האלה הם ביי פרודקט כנראה שיותר משתלם לעגן בפטנטים מאשר למכור- גם כדי להגביל את המתחרים. כמו במאבק של מיקרוסופט וגוגל בתחום החיפוש. |
|
||||
|
||||
מיקרוסופט נלחמת בגוגל בתחום החיפוש? |
|
||||
|
||||
כמובן: http://www.bing.com |
|
||||
|
||||
נראה שאין לגוגל מה לדאוג - מיקרוסופט being מיקרוסופט, אדם נכנס לאתר של מנוע החיפוש העתידי פורץ הדרך שלה ולא מבין כלום וחושב שהוא בטעות גלש לנשיונל ג'אוגרפיק. |
|
||||
|
||||
יש לה מה לדאוג כי מדובר בעסקי ליבה ולא לעולם חוסן, לכן גוגל מחזיקה במספר היסטרי של פטנטים בתחום. |
|
||||
|
||||
נ.ב וגוגל כיום היא הרבה יותר being מיקרוסופט בניגוד לדיעה הרווחת. |
|
||||
|
||||
באיזה מובן, בדיוק? |
|
||||
|
||||
במובן המרושע של ה -being. לעומת מיתוס ה- do no evil והדאגה לסידור הכאוס באינטרתת |
|
||||
|
||||
גוגל מיהרו להעתיק את הסגנון (אם כי לא כברירת מחדל). פינה ימנית למטה באתר העברי ושמאלית למטה באתר באנגלית - "Change background image". גם את סגנון ממשק תוצאות החיפוש של תמונות, גוגל שינו לסגנון שדומה יותר לתוצאות של Bing, בעקבות ההשקה של המימוש של Microsoft. זאת בלשון המעטה. האמת שמדובר בהעתקה חסרת בושה מצד גוגל (למרות שהמימוש הפשוט יותר של גוגל בעבר, היה דווקא מוצלח יותר לטעמי). בכל מקרה, מנוע חיפוש איננו עמודי ה-Web בהם מתבצע החיפוש. מיקרוסופט משתמשת במנוע החיפוש שלה במגוון מוצרים של החברה ושל שותפים (xbox, windows phone 7, yahoo וכו') והוא כלי אסטרטגי (כמה מוצלח זה עניין לדיון) שמאפשר לה להתנתק מהתלות בגוגל כמנוע חיפוש. איזו סיבה ואיזה אינטרס יש לנו בחגיגת מעמדו של גוגל כמנוע חיפוש עיקרי/יחידי? אני חשבתי שיותר אופציות ויותר תחרות זה יותר טוב. |
|
||||
|
||||
:-( אוי ואבוי. כשראיתי לראשונה את מימשק חיפוש התמונות החדש של גוגל נבהלתי, חשבתי: מה זה, מה קרה לגוגל? האם זו התחלת הסוף? בהן צדק זה מה שעבר במחשבתי, המימשק המסורבל רווי הסקריפטים הילדותיים הוא כה לא אופייני לאלגנטיות האהובה של גוגל והוא כל מה שאני לא סובלת במימשקים אחרים. מזל שיש למטה אופציה לעבור ל basic versoin. עכשיו אני מבינה מה קרה, גוגל נתקפה בהלת בינג, והיה האינטרנט לממשלת הערסים. שילכו לכל הרוחות המיקרוסופט האלה. לא הבנתי למה אתה מתכוון שמנוע חיפוש הוא כלי אסטרטגי, בשבילי הוא מנוע חיפוש ואין לי עניין שיבלבל לי את המוח באסטרטגיות. הכי חשוב, מה האינטרס שלנו בחגיגת מעמדו של גוגל - לפעמים, לעתים נדירות, נולדים בעולם דברים באמת טובים בבתים באמת טובים, והחוכמה היא להבחין בזה ולא לשיר את הפזמון הרגיל בשבחי התחרות. מהרגע שגוגל נולדה ועד היום היא לא הלכה עם העדר והיתה חברה יוצאת דופן, עם חוכמה וחן ואזרחות אינטרנט יוצאי דופן. אני לא יודעת כמה אנשים פה זוכרים את הימים שלפני היות גוגל, את מימשק החיפוש המקושקש וחסר התועלת של יאהו. ואז לפתע הופיע גוגל עם המימשק הנקי שנשאר ללא שינוי עד היום, עם אלגוריתם חיפוש crawling סודי וגאוני במהירות האור, ונפח נשמת כל חי במירשתת. להסביר מה טוב במנוע גוגל ובחברת גוגל? לפעמים עלינו לעשות כל מה שלאל ידינו כדי לשמור על הדבר הטוב שלא יתקלקל. והנה אחרי עשרים שנה הדבר הטוב מתחיל להתקלקל בגלל אינפקציית מיקרוסופט. |
|
||||
|
||||
מה קורה אם גוגל מצנזרת בטעות אתר? יש להם יד קלה על ההדק נגד ספאמרים שמנסים להטעות אותם. אבל מה קורה אם הם בטעות (או שמא לא בטעות?) מצנזרים אתר לגיטימי שגם מתחרה שאחד ממיני העסקים הרבים שלהם? החשד שעולה בסוגריים הוא בגלל שהם "כמעט היחידים". כמוכן, רון העלה את הבעיה של חיפושים מותאמים. בתור מי שלא משתמש בשאר השירותים שלהם, אני פשוט מדי פעם מוחק את כל העוגיות שלהם. למיטב ידיעתי זה הופך אותי למשתמש חדש. אבל אם את משתמשת ב־GMail ושאר שירותים שלהם, את מזוהה על ידיהם פשוט ע"י ההזדהות והאפשרות הזו לא קיימת. אני אישית משתמש ב־DuckDuckGo בין השאר בגלל שהוא לא מיקרוסופט ולא גוגל. באנגלית הוא עובד טוב מאוד (יותר מגוגל, לעניות דעתי) לחיפושים פשוטים, ויש לו את השכל והצניעות להפנות למנועי חיפוש אחרים ולהפוך את השימוש בהם (ישירות, לא דרך תיווך כ־metacrawler) לפשוט. |
|
||||
|
||||
תוצאות החיפוש לא רק מותאמות אישית פר דפדפן/משתמש. הביקורת בקישור של רון היא רחבה יותר. ישנם קריטריונים נוספים להתאמת תוצאות חיפוש ולכן בעיית ה-Filter bubbles לא קשורה רק להתאמה אישית. דוגמה אחת: מיקום המחפש (עפ"י כתובת ה-IP). עד כמה שאני יודע, מחפש אמריקני עלול לקבל תוצאות חיפוש שונות ממחפש ישראלי, עבור אותו החיפוש. מחיקת Cookies לא רלבנטית במקרה זה. |
|
||||
|
||||
עכשיו DuckDuckGo מתגאים בצורה רשמית באתר שלהם "אנחנו לא שמים אותך בבועה": קישור ל: בהמשך לדף השיווקי הבא שבו הם מתגאים שהם לא עוקבים אחרי המשתמשים: הציניקנים יגידו שהם גם משקיעים פחות עבודה וגם מתגאים בזה. |
|
||||
|
||||
העלתי, ניסיתי שני נסיונות ואני מרוצה. |
|
||||
|
||||
אני לא מבינה, כל הסיפור של החיפוש המותאם זה העוגיות? מה, רק אני מוחקת את כל העוגיות כמה פעמים ביום? בסופו של דבר תוצאה כלשהי צריכה להיות במקום ראשון ותוצאה אחרת במקום שני, ואיזשהו דירוג אתה חייב לקבוע, התלונות לדעתי קטנוניות ומוגזמות. לכל אחד יש דעה על הדירוג של גוגל כי את זה כולם מבינים, אבל על עיקר העיקר, על החיפוש, אף אחד לא מדבר כי את זה אף אחד לא מבין. (אני ורוב הדברנים לא מבינים). אני לא מכירה את DUCKDUCK אבל אני מנחשת שהוא לא מחזיק את האינטרנט על הדיסקים שלו אלא זו קליפה שמפנה שאלות למנועים אחרים - וגוגל בראשם. אולי אני טועה. |
|
||||
|
||||
העוגיות הן דרך אחת לזהות מספר התחברויות שונות: אם קיבלת שתי שאלות שונות מדפדפן שיש לו את העוגיה 1092381203980298304598304, כנראה שמדובר על אותו דפדפן. מה בדיוק לא מובן? אתה יכולה לשאול שאלות יותר ממוקדות? לגבי DuckDuckGo: יש להם מאגר מידע משלהם. הם גם משתמשים במאגרים אחרים (בפרט: ממשק נוח שיאהו מספקת). גוגל דווקא בולטת בהעדרה מהרשימה. ר' השאלה "Where do you get your results?" בקובץ השאלות הנפוצות שלהם. |
|
||||
|
||||
הם כותבים שם: Why can't your crawling/index provide all the results? ומסבירים. התשובה מובנת מאליה, ואני חושבת שהמבנה הזה הוא לא הוגן, לא הוגן להשתמש במנועים אחרים כשואבי המים הנסתרים שלך. אולי זה אפילו לא חוקי. מה לא מובן לי בחיפוש של גוגל? אני אפילו לא יודעת מאיפה להתחיל לשאול. יש לי אתר, העליתי אליו קובץ בוורד, אני כותבת בגוגל משפט אקראי מעמוד 127 בספר: "הוטל עלי התפקיד העגום לנפק לחבר יקר זה גרב מלאת חול רטוב מאסיבית למדי בלסת", ולפני שאני לוחצת אנטר גוגל מחזיר לי את התשובה האחת והיחידה במרשתת, האתר שלי. אז אני מבינה שיש לגוגל "סיירים", crawlers, הם בטח מחולקים לחוליות לפי IP או בחלוקה אחרת, והם מסתובבים ברשת ונכנסים לכל לינק, אוספים מתוכו את כל הלינקים וכן האלה. הם אולי מגישים את רשימת הלינקים ל"מנהל סיירים ראשי", שזורק את כל הלינקים הכפולים, נכנס ללינקים, מעתיק את הטקסטים והופך אותם לאיזה פורמט טקסט נוח לגוגל. אם יש קובץ וורד הוא PDF או כל דבר דומה, הוא פותח גם אותם. מפה אני כבר הולכת לאיבוד. |
|
||||
|
||||
מהירות האיחזור ואיכותו נובעת דווקא מפעולה שכבר הזכרת, אינדוקס הטקסטים, ולא משיטות איסופם מן הרשת. האם את יודעת, בעיקרון, מה זה אומר לאנדקס אוסף טקסטים? |
|
||||
|
||||
זאת שאלת מפתח, איך גוגל מאנדקס את הטקסטים. תסביר לי. |
|
||||
|
||||
אין בעייה. אכתוב משהו מאוחר יותר היום. |
|
||||
|
||||
אם אתה תכתוב מאוחר יותר הסבר לאינדוקס - כל הכבוד. אם תכתוב אינדוקס כזה מאוחר יותר היום - עוד יותר כבוד :-) |
|
||||
|
||||
טוב, לא צריך לפתח ציפיות יותר מדי. אני אומנם לא מכיר את פרטי המנוע של גוגל, אבל כן יצא לי לבנות מנוע חיפוש. כל מה שאסביר הוא מה זה אינדקס, במובן הבסיסי והמשעמם ביותר. |
|
||||
|
||||
אתייחס רק לנקודה ספציפית, אך המרכזית לעובדה שמנועי חיפוש מסוגלים לספק במהירות את רשימת המסמכים המכילים מילה או צירוף מילים שנשלחו אליהם ע"י משתמשים. הדברים מובאים כמובן בנוסח פשטני ולא תמיד מדוייק. הפתרון מבוסס על מבנה פשוט, בו אנו נתקלים לעיתים לקראת סופו של ספר – אינדקס. אינדקס של ספר הוא רשימת מספרים הצמודה לכל מילה1, שמציינת את העמודים בהם מופיעה המילה. באופן זה, ברצון המשתמש לאתר את מופעיה של המילה "משכוכית" במדריך הרועים שלו, אין הוא צריך לעבור בעצמו על ספר ההפעלה של העדר, אלא די לו לגשת מיידית אל סופו ולשלוף את הרשימה הנדרשת. בזמן הקריאה שנחסך, יכול הבחור לכתוב על חווית השליפה סטטוס מייגע בפייסבוק, עבור מי מחבריו שטרם למד לעשות "hide" בממשק המתעמר של האתר. זהו גם עיקר סודה של השליפה המהירה ע"י מנוע חיפוש. עבור כל מילה בה נתקל מנוע האינדוקס בתוך דפי האינטרנט שהורדו אליו מבעוד מועד, הוא שומר בצד את רשימת המספרים שהוא העניק לכל עמוד שהורד אליו (נניח, לפי סדר ההורדה של העמוד): …. sambusak: 1, 5, 103, 104, 105, 244, 296 עתה, בהינתן שאילתת חיפוש הכוללת את המילה sambusak, לא צריך מנוע החיפוש לנדוד ברחבי הרשת בחיפושיו, ואף לא לקרוא את הדפים שכבר הורדו ממנה. כל שנדרש ממנו עתה הוא לגלות היכן איכסן מנגנון האינדוקס את רשימת העמודים עבור המילה sambusak, פעולה אותה ניתן לבצע באופן מיידי (חפשי למשל hash table), ולהחזיר את הרשימה למשתמש. טוב, לא בדיוק, הרי למשתמש אין מה לעשות עם רשימת המיספורים הפנימיים של המערכת. אז במקום לחזור למשתמש, עובר לפני כן המנוע אל טבלה נוספת, בה נמצא במקום הראשון הקישור לדף מספר אחת, במקום שני הקישור אל דף מספר 2 שהורד מן הרשת וכן הלאה. הוא ניגש עם 20 המספרים הראשונים (נניח) שברשימה, ניגש אל 20 המקומות המתאימים בטבלת הקישורים, שולף מן הטבלה את 20 הקישורים המתאימים וחוזר עמם אל המשתמש.samsung: 3, 200, 244, 245, 296, 301 …. זה בעיקרון. ישנם כמובן שיפורים ומורכבויות נוספות. למשל, אם ביקש המשתמש מסמכים בהם מופיעות גם sambusak וגם samsung, נדרש מנוע החיפוש לרוץ על שתי הרשימות במקביל, כדי למצוא עמודים המשותפים לשתי המילים. מאחר ושתי הרשימות הן כבר בסדר עולה, ומאחר ואפילו מחשב ביתי פשוט מסוגל למיליארד פעולות בשניה, אזי, למשל, אם כל אחת מן המילים הללו מופיעה בסדר גודל של מיליון מסמכים, הוא יסיים את ההצלבה בתוך כמה מילישניות לכל היותר2. שיפור נוסף הוא עבור חיפוש דפים בהם מופיעות מילים, נניח בזו אחר זו, כחלק מביטוי. עבור מקרים אלו שומרים לא רק את מספרי העמודים בהן מופיעה כל מילה, אלא גם את מיקומיה בכל דף. וכמובן ישנם עוד שיפורים הקשורים לרלוונטיות התוצאות, הטיות של מילים, סוגיות של חישוב מבוזר ועוד ועוד כהנה וכהנה אתגרים, ומשימות השמים לחם על שולחנם של מהנדסי תוכנה. ------------------------------------------------------------------------------------------------------------------------------------- 1 ליתר דיוק, כאשר מדובר בספר, כולל האינדקס רק את המילים שעורך הספר חפץ ביקרן, אבל במנוע חיפוש מדובר בכמעט כולן. 2 ישנן שיטות החוסכות את רוב פעולת ההצלבה (skip list) כך שזה יכול להגיע גם למיקרושניות עבור מיליון מופעים |
|
||||
|
||||
רק הערה קטנה: שאלתי פעם פרופסור (עוסק בנושא רלוונטי) בטכניון, והוא אמר לי שלגוגל יש מעבר לאינדקס גם "עותק" (בנוסף לאינדקס) של האינטרנט לשם הפעלת אלגוריתמי הפייג' ראנק. |
|
||||
|
||||
כמובן. בד"כ למנוע חיפוש שאינו "טפילי" ישנו עותק של כל המסמכים אותם הוא אינדקס, ולו כדי להחזיר ברשימת התוצאות גם את השורה בה מופיעה מילת/שאילתת החיפוש, על מנת לסייע למשתמש להחליט על מה ללחוץ ולחסוך לו זמן. אני מניח שבגוגל משתמשים בעותק זה גם בשביל המטרה אותה ציינת. |
|
||||
|
||||
מה שאני מתקשה להבין זה איך גוגל מוצאים ביטויים מדוייקים (כאלה בתוך גרשיים) ומהר? הם פשוט עוברים על כל הדפים שבהם נמצאות כל המילים בביטוי ומחפשים את הצירוף? |
|
||||
|
||||
כאמור, בפועל שומרים באינדקס של כל מילה לא רק את ה-ID (מספר מזהה) של כל דף html בו היא מופיעה, אלא גם את מיקומיה בו. אם נחזור לדוגמא שנתתי, בפועל יראה מאגר האינדקסים קרוב יותר לזה: sambusak: *1, 74, 90, *5, 2, 10, 100, *103, 11, 50, *104, 10, .... כאשר כוכבית מציינת שמדובר במספר דף ואילו ללא כוכבית, הכוונה למספר המילה בדף (ראשונה, שניה, שלישית,...).samsung: *3, 2, 5, *103, 12, 58, *200, 89, 244.... משום כך, אם חפצה נפשך בדפים הכוללים איזכורים של דגם החכמופון החדש "sambusak samsung", ירוץ המנוע במקביל לאורך שתי הרשימות (וכאמור, עבור רשימות המציינות מיליוני מסמכים בהם מופיעות שתי המילים זה לוקחת שברירי שניה), ויגלה שבדף מספר 103 המילה ה-11 היא sambusak בעוד שהמילה ה-12 באותו דף html היא samsung - בינגו! |
|
||||
|
||||
הגאון כבר מצליח למצוא sambusak samsung, אבל נכון לזמן כתיבת תגובה זו, עדיין לא את "sambusak samsung". |
|
||||
|
||||
באותו עניין: ראו לדוגמה את ויקיפדיה:מזנון/ארכיון 250#נפלאות גוגל [ויקיפדיה]1 שם הצלחתי בינתיים בקרב נגד Google. 1 אין אפשרות ליצור <קישור> שמצביע לתוך ויקיפדיה העברית. |
|
||||
|
||||
תודה, זה מאד מעניין, עד אתמול, אחרי ששאלתי אותך, לא עלה בדעתי שגוגל מאנדקסת כל מילה ומילה. הם הראשונים שעשו את זה? אתה מתעסק בדטה בייסים? עשיתי פעם קורס על אורקל, זה היה קורס קשה ושכחתי הכל מאלף עד תו. אחד הדברים הכי מסובכים היה הגיבויים. גם גוגל צריכה לגבות כל הזמן. מצאתי בלוג מעניין על גוגל. מסופר למשל שה crawler מאחסן 850 TB של מידע (TB אחד שווה 1024 ג'יגה בייט), זו מן הסתם הטבלה שאתה דיברת עליה, נכון? האינדקס שבנוי מכל המילים מסודרות לפי הסדר, עם פוינטר ל URL וגם ציון המקומות שהמילה מופיעה בתוך הטקסט. זה גודלה של כל הרשת? נשמע קטן. אז איך פיזית מחפשים במהירות בתוך אינדקס כל כך גדול? הוא יושב על דיסקים או בזכרון? אולי הוא מחולק לדיסקים שונים? כשאני שואלת משהו את גוגל, לאן מופנית השאלה, לכולם? אתה לא חייב לענות, המוח מסתחרר ממחשבות על גוגל על הבוקר. בבלוג הזה מסופר גם שגוגל בודקת ממשק חדש בלי כפתור I'M FEELING LUCKY. ברוך השם, מעולם לא לחצתי עליו שלא בטעות. |
|
||||
|
||||
1. רעיון האינדוקס הממוכן קדם בהרבה לגוגל (ואף לאינטרנט). עליו התבסס כל מנוע חיפוש, עד כמה שידיעתי מגעת, ובפרט אלו של יאהו, אלטה-ויסטה ואחרים שקדמו לזה של גוגל. 2. אין לי נגיעה בדטה בייסים. פעם הייתה עוינות הדדית אבל היום אנחנו כבר מיודדים, אם כי עדיין בלי הקטע הפיסי. 3. אכן גם גוגל צריכה לשמור גיבויים, אם כי אולי זה קורה מאליו, מעצם העובדה שכל מידע שמשמש את מנוע החיפוש משוכפל להרבה מכונות, כדי לתמוך בריבוי משתמשים. כך, כאשר מכונה קורסת, וזה כידוע עניין של זמן עד שזה קורה, ממשיכות לפעול המכונות עם העותקים האחרים של חלק המידע שנעלם. 4. נראה לי שהמידע שמאכסן ה-crawler שהזכרת הוא הדפים בשלמותם, ולא הטבלה שהזכרתי. אגב, בפועל, המילים לאו דווקא מסודרות אלפא-בייתית, אלא באמצעות Hash_table [Wikipedia] (אם ההסבר שם לא מספיק אנסה לפשט את הרעיון המגניב הזה). 5. נדמה לי שאצל גוגל הוא יושב בזיכרון. זכרי שגישה לזיכרון היא עניין של עשר נאנו-שניות (כנראה). כמובן, כל המידע הזה מחולק לחלקים קטנים ומפוזר על מאות אלפי מכונות, כדי לזרז את העניינים, ונתבים היודעים לזהות במהירות אל איזו קבוצה להפנות שאילתא נתונה. אם אני זוכר נכון, כל שאילתא מופנית אל יותר מקבוצה אחת, וזו שחוזרת קודם לנתב - חוזרת אל עוד לקוח מרוצה. לילה טוב! |
|
||||
|
||||
לפני ימים אחדים חיפשתי שם מסוים בגוגל, שם של אישה שהיא פרופסור. לצערי אינני זוכר מהו, אבל כשרשמתי את השם המלא לבדו קיבלתי פחות ממאה תוצאות. כשרשמתי גם "פרופ"' (הכל במרכאות כמובן) קיבלתי אלפי תוצאות. תופעה כזו כבר קרתה לי מספר פעמים עם צירופים אחרים. אתה מבין איך זה יכול לקרות? |
|
||||
|
||||
מוזר. אשמח לבחון דוגמא כזו. זה מזכיר לי שכל פעם אני צריך להסביר מחדש למי שהגיון החיפוש הממוכן זר לו, שאם לא חזרו תוצאות או שהן מעטות מדי ולא מכילות את המבוקש, אזי הוספת דרישות, למשל מילת חיפוש נוספת על אלו שניתנו, לא "תעזור" למנוע. זאת בניגוד לאופן בו היינו נוהגים במקרה של חפשן אנושי (נניח ספרן לפני שלושים שנה, או מחפש אוצרות של שודדי ים). אצל אדם, הוספת פרטים על אלו שכבר ניתנו ולא הניבו דבר, יכולה רק לעזור. הסיבה היא כפולה: המנוע מחפש כבר בפעם הראשונה בכל המקומות ולכן הוספת פרטים יכולה רק לכווץ את רשימת התוצאות, ולא לכוון אותו למקומות חדשים. הסיבה השניה היא שהמנוע מחפש במדוייק את מה שנשאל, ואם אין אז אין. אילו אדם, אם תוסיף לו פרטים, לוקח בחשבון שחלק מהם עשוי להיות לא מדוייק (למשל תורכיה לעומת טורקיה או כתיב מלא לעומת חסר) ולכן אם אין תוצאות הוא יתעלם מהם או ימיר אותם לצורה אחרת שאותה הוא יחפש. לזה יש סייג, מאחר ומנגנוני החיפוש מסוגלים במידה מסויימת כבר היום לחפש באופן לא מדוייק, ע"י תיקון שגיאות כתיב, התחשבות בהטיות ובמילים דומות. |
|
||||
|
||||
למה? המנוע לא מכיר פונקצית OR? |
|
||||
|
||||
המנוע כן, המשתמש המבוגר הממוצע פחות. |
|
||||
|
||||
המנוע מכיר את הפונקציה, אבל הוא לא אמור להפעיל אותה כשרושמים את המלים לחיפוש במרכאות. כעת נכון שבחודשים האחרונים הוא משום מה עושה גם את מה שאינו אמור לעשות, אבל מקרים כאלה קרו לי גם לפני שנים אחדות - כאשר לא עשה זאת. יותר מזה, כשרשמתי עכשיו (בדוגמא זו) את השם יחד עם התואר, התוצאות הראשונות שהופיעו היו שונות מאלה הראשונות בלי התואר - לפחות בעמודים הראשונים לא היה שימוש ב''או''. אגב, לא ברור לי גם למה הוחלט להתעלם מהמרכאות, ואם יש דרך אחרת לקבל רק את התוצאות של ''ו-''. מאוד מרגיז. |
|
||||
|
||||
אם אינני טועה, הוא תמיד מסדר לך את התוצאות לפי מידת ההתאמה לשאלה שלך. אני מוצאת שזה ידידותי מצדו כי השאלות שלי לא תמיד הכי חכמות. |
|
||||
|
||||
הוא אכן מסדר את התוצאות על פי מידת ההתאמה, אבל מה ההבדל (במובן הזה) בין מידת ההתאמה ל"XY" ול"פרופ' XY"? |
|
||||
|
||||
זה האלגוריתם של דירוג התוצאות... אני לא מכיר את זה של גוגל אבל מקובל לתת לכל מילה ''מיקום סמנטי'', ז''א המילה פרופ' קרובה סמנטית למילים שקשורות לאקדמיה ולכן מסמכים בהם הרבה יש הרבה מילים שקשורות לאקדמיה יופיעו קודם אם השאילתה מופיעה המילה פרופ'. את הקרבה הסמנטית בין מילים מוצאים (בד''כ, ואני מניח שגם בגוגל) לפי הקרבה בין המילים בטקסטים השונים. |
|
||||
|
||||
אז האם המחשב כבר יודע סמנטיקה? |
|
||||
|
||||
המהנדסים של גוגל יודעים. |
|
||||
|
||||
בעניין "ו-" בגוגל, תנסה להשתמש ב + לפני המלים שחייבות להיות כלולות בתוצאות. |
|
||||
|
||||
אבל אם אני רוצה גם את הסדר הספציפי? |
|
||||
|
||||
אולי "word1 word2"+ |
|
||||
|
||||
את כל אלה אני יודע, כמובן - שהרי אחרת לא הייתי שואל את השאלה...:) |
|
||||
|
||||
אני חושבת שזה כי גוגל כן עושה OR על מילות החיפוש. אם תחפש למשל: ברטולד חרסה (בלי מרכאות, וחרסה זה עוד שם נרדף לשמש) תקבל 3 תוצאות. עם תוסיף לחיפוש עוד מילה: ברטולד חרסה נציג תקבל 1,150 תוצאות. הוא פשוט מציג תחילה את אלה עם ה-AND ולכן נראה שהוא לא עושה OR. או שהוא עושה OR כשיש מעט מאד תוצאות על ה AND. |
|
||||
|
||||
בדיוק. וגם: תגובה 573797 |
|
||||
|
||||
קצת טפשי, אבל ניסית בלי גרש בפרופ'? זה סימן פיסוק שנדמה לי שנדיר בשפות העולם בסוף מילה, ואולי יש לו משמעות מיוחדת עבור מנוע החיפוש. |
|
||||
|
||||
לא נראה לי שגרש משנה לו משהו. |
|
||||
|
||||
ואם כבר מדברים על אינדקסים לספרים, הנה1 אינדקס שכיחות ע"פ זמן של גוגל לכל הספרים שהם אינדקסו (כמה אחוזים מכלל הספרים שאי פעם נדפסו; מישהו כבר בטח כתב על זה כאן, אבל לא מצאתי איפה). |
|
||||
|
||||
מוזר. אני קיבלתי שתי תוצאות. |
|
||||
|
||||
ב־Duck אני מקבל כרגע רק את התגובה לעיל של ג'וד. |
|
||||
|
||||
אחת מהן באייל הקורא? |
|
||||
|
||||
השיפורים החדשים מפגרים ומעצבנים ברמות שלא יתוארו. מישהו בגוגל החליט על מקצה שיפורים, וסגר אותי הרמטית בתוך גבולות ה-IP שלי. היו לי שתי סימניות, האחת גוגל עברית והשניה גוגל אנגלית, ובגוגל אנגלית העולם היה פתוח לפני. היום הן מובילות לאותו מקום ואינני יכולה לנער את הכתובת ISRAEL! בעמוד הראשי של גוגל, אי אפשר להגיע finance, אי אפשר לראות news לא לוקליים, וצריך לעשות שמיניות באוויר כדי להגיע אליהם. יש עובד גוגל בקהל? למה עשיתם את זה? אני נוטשת אתכם. |
|
||||
|
||||
ולא יעזור לכם אם תגלשו דרך VPN, למשל דרך שרת באנגליה. תוכנות Whois אמנם יזהו שאתם באנגליה, רשת BBC אמנם תתיר לכם לראות את השידורים כאילו אתם באנגליה, אבל גוגל הבלש יזהה שאתם מישראל. אל תנסו לשנות את ה-LOCATION ולכתוב, למשל, את כתובת עיתון הגארדיין, כי גוגל יעלה על התרמית ויאמר לכם: Please enter a valid ISRAEL city of zip code. |
|
||||
|
||||
לטובת הגולשים מחו"ל, את יכולה להסביר מה בדיוק הבעיה? ניסית, לגלוש דרך שרת פרוקסי? ניסית לגלוש ב"מצב פורנו" (בכרום, תלחצי על סימן המפתח ואז על new incognito Window)? בעיקרון יש לגוגל רק שתי אפשרויות לדעת מאיפה את גולשת, או דרך כתובת ה-ip (ששרת הפרוקסי אמור לפתור) או דרך המידע המקומי (שמצב הפורנו אמור לפתור). אם הם מצליחים לדעת מאיפה את גולשת דרך שרת פרוקסי במצב פורנו אז הייתי מחליף את הדפדפן. |
|
||||
|
||||
אני לא יודעת לאפיין את הבעיה, הייתי מתארת אותה כניג'וס כללי. נראה לי שזיהוי הלוקיישן לקוח מחשבון הג'ימייל (או גם מה IP וגם מהג'ימייל), אף שלא זכור לי שציינתי שם בפרופיל שאני מישראל, אולי גוגל רשם זאת לעצמו כשלא הסתכלתי. מאחר שכך, חלון אינגוקיניטו לא פותר את הבעיה. גם התנתקות מג'ימייל לא עוזרת, כי כרום כבר תיעד את זה. רק מחיקת קוקיז מרסטת את המצב, אבל עד מהרה גוגל נכנס שוב לסחרור של ניחושים מה אני רוצה לעשות עכשיו - היא רוצה גוגל אנגלית? גוגל ישראל עברית? גוגל ישראל באנגלית? במסגרת השיפורים גוגל שינה כתובות ו/או הפניות והסימניות שלי לא עובדות. אני זקוקה לשתי סימניות חדשות יציבות כמו בטון שלא תלויות בקוקיז ובמה שעשיתי קודם, האחת תקשר ישירות לגוגל אנגלית לא-תלוי לוקיישן, והשניה תקשר לגוגל עברית מימין לשמאל. |
|
||||
|
||||
חלון אינקוגניטו אמור לנתק אותך מחשבון הג'ימייל שלך, ביחד עם שרת פרוקסי אני לא חושב שלגוגל יש דרך לדעת מאיפה את גולשת. כל הנסיונות שלי עם שרת פרוקסי עבדו. למשל גוגל בהולנדית, גוגל בערבית או גוגל באנגלית. |
|
||||
|
||||
צודק. אבל לא ברור לי. אני גולשת כרגע דרך שרת VPN באנגליה, ואכן המיקום שלי מזוהה על ידי תוכניות whois כאנגליה. הנה מה שאני מקבלת בחלון אינקוגניטו בכרום: בכתובת https://www.google.com/ncr, שזו הסימניה הישנה שלי לגוגל אנגלית, נפתח חלון עם לוגו גוגל, ללא ציון "ישראל" או "עברית", תפריט מלא באנגלית למעלה, טקסט משמאל לימין. בחלון זה כשאני לוחצת על news שבתפריט, אני מקבלת חדשות לוקליות בעברית, והתפריט למעלה בעברית. כתובת ה-URL בחלון שנפתח היא http://news.google.com/nwshp?hl=en&tab=wn. זה הגיוני בעיניך? |
|
||||
|
||||
תשתמשי בפרוקסי אנונימי והוא יעביר אותך לארה"ב, אבל אם את רוצה דווקא את האתר הבריטי תנסי את זה. |
|
||||
|
||||
בימינו צריך פרוקסי כדי לגגל? אני רק רוצה שגוגל יחזור להיות ידידי הישן והטוב. תודה בכולופן. |
|
||||
|
||||
כנראה שמדובר בהגדרות השפה/מקום שלך בתוך חשבון הגוגל שלך. תנסי: ולבחור אנגלית. מגיעים לשם לחיצה על השם (אייל פלמוני או Eyal Palmony) מלמעלה, ולחיצה על "Account" (או "חשבון"). לגבי החדשות - להגיע ל-news ובתפריט למעלה (ליד המילה news) לבחור u.k. edition בשני המקרים - הבחירות ישמרו (לא משנה מאיזה דפדפן/מחשב את ניגשת) עד לפעם הבאה שתשני אותם. |
|
||||
|
||||
רק אצלי הכל כרגיל ? |
|
||||
|
||||
גוגל עשה זאת שוב באפליקציה מלבבת אבל המונה מתקדם ממש לאט, פחות מאלף לדקה כשספרתי וזה לא הגיוני. בגוגל עברית אין קישור לאפליקציה אז אולי גם בשפות אחרות אין, בערבית דווקא יש. |
|
||||
|
||||
איך פטנטים בדיוק עוזרים בתחום מנועי החיפוש? נכון שלמיקרוסופט אין אלגוריתם מיון שנקרא "באלמר ראנק" וליאהו אין אלגוריתם מיון שנקרא "יאנג ראנק", אבל שתיהן הצליחו להציג תחליף לא רע. ולא רק הן: היו לא מעט חברות שפיתחו בעצמן טכנולוגיה דומה. לא זכור לי ששמעתי על תביעת פטנטים של גוגל נגד אחת מהן. גוגל מציגה תוצאות טובות, ועם התוצאות הללו אני לא מתווכח. אבל זה לא בגלל פטנט אחד מלפני 13 שנים. זה בגלל השקעת עבודה רבה לבניית מערכת יעילה. |
|
||||
|
||||
אולי גוגול מציגה תוצאות טובות, אבל מגמת התפירה האישית של חיפושים1 גורמת לכך שאנשים שונים מקבלים תוצאות שונות לאותו חיפוש. מה שיותר חמור, לדעתו של אלי פריזר, ההתאמה האישית של חיפושים גורמת לכך שהמשתמשים לא מרגישים שהם חיים למעשה בתוך "בועת סינון" שמחזירה להם תוצאות שמתאימות לטעם האישי שלהם. כך הם מפספסים תוצאות חיפוש אפשרויות אחרות, ובגלל שתוצאות החיפוש שהם מקבלים קולעות לטעמם, הם גם מרגישים טוב מזה שהם קיבלו תמיכה למה שהם חושבים. 1 למאמר מצורף יופי של איור |
|
||||
|
||||
בסדר. אנחנו יודעים שזה מפחיד שאוספים עלינו הרבה מידע. אבל זה שייך לדיון לחפש בעיניים פקוחות. |
|
||||
|
||||
אבל הוא לא מדבר על הפחד אלא על תוצאות החיפוש, וזה רלוונטי למה שכתבת למעלה. |
|
||||
|
||||
|
||||
|
||||
לא שמעת כי הם הצליחו לגדר את עצמם לא רע. בתור יזם היית מסכן כסף בפיתוח מוצר שנכנס למגרש הפטנטים הרשומים של תאגיד כמו גוגל ? הם אפילו פיתחו מנוע חיפוש לפטנטים (אמצעי הרתעה?) שמציג עשרות אלפי פטנטים בתחום החיפוש > |
|
||||
|
||||
גוגל רוצים שתחפש אצלם מידע. המידע על הפטנטים זמין לכל דורש. באתר של המקורי הוא זמין בצורה לא מספיק נוחה, ולכן הם דאגו לספק אותו בצורה נוחה יותר. יש בארה"ב גם מוסדות ללא כוונות רווח שדואגים להנגיש מידע שהשלטון מספק. ר' Sunshine Foundation [Wikipedia]. לשמחתי גם בארץ יש משהו: הסדנא לידע ציבורי (הם מחפשים שם כותבים נוספים. בעיקר פייתוניסטים, כרגע). כל חברה גדולה מנסה לרשום כמה שיותר פטנטים. לגבי "כניסה למגרש": באופן כללי כל משהו קצת חדשני שתעשה כנראה יפר כמה פטנטים. ברוב המקרים פשוט לא משתלם לחפש אותם. בפרט, לתחום מנועי החיפוש נכנסו כבר כמה חברות חדשות מאז שגוגל הפכה להיות השחקן הראשי: * Sogou.com [Wikipedia] - 2004, סיני * Soso.com [Wikipedia] - 2011, סיני * Yebol [Wikipedia] - 2009 * Youdao [Wikipedia] - 2007, סיניגם אם נוציא מהתמונה את הסינים, נשאר עם קבוצה לא קטנה של חברות שהיו מוכנות להיכנס לשוק. מדובר על שוק שממילא מסוכן (לפחות לכאורה) להיכנס אליו כי הוא רווי. אני מניח שמשקיעים לא היו משקיעים בהם אם היו חושבים שגוגל יכולה לחסל אותם בקלות בעזרת פטנטים. |
|
||||
|
||||
מה זה באלמר ראנק ויאנג ראנק. ושאלת המחץ - איך באמת גוגל עובד? :-) לא איך הוא מדרג את תוצאות החיפוש, זה לא מעניין, איך הוא מוצא אותן ואיך הוא שומר את כל האינטרנט בדיסקים שלו ואיך הוא מקשר ביניהם ואיזה מין אינדקסים הוא מסדר כדי לשלוף בשבילי את התשובה במהירות האור. וידוי - גוגל ואני זו אהבה ממבט ראשון, אהבה שרק הלכה והעמיקה כל השנים הארוכות האלה. |
|
||||
|
||||
לשאלה הראשונה: PageRank [Wikipedia]. לאחרות: אני משאיר לאחרים לענות |
|
||||
|
||||
האחרים עונים כאן מן זמן > |
|
||||
|
||||
זה שמישהו חשב על משהו לא מונע ממך לרשום על זה פטנט - אלא אם כן הוא מוכיח שהוא לא רק חשב על זה אלא גם השתמש בזה לפניך. אם בעלים של פטנט מחליט לתבוע אותך אז זה בדרך כלל כבר מאוחר מדי - אתה כבר הוצאת מוצר שלטענתו מפר את זכויותיו, וגם אם תנסה להמנע מזה מעכשיו התביעה תהיה שרירה וקיימת. כאן המקום להבהיר נקודה חשובה בתחום כלכלת הפטנטים: המטרה העיקרית של החברות הגדולות ברישום פטנטים אינה הגנה על זכויותיהן אלא יצירת מנוף חזק יותר להסכמים עם חברות אחרות. חברה שיש לה פורטפוליו גדול של פטנטים נמצאת במצב טוב יותר כשהיא רוצה לחתום על הסכמים עם חברות אחרות בתחומה לשימוש הדדי בפטנטים. תביעה משפטית בין חברות כאלה היא בדרך כלל אמצעי לשכנוע לכניסה למשא ומתן; כמעט תמיד היא תיסגר מחוץ לבית המשפט. לכן החברות הגדולות מנסות לייצר כמויות של פטנטים ללא תלות באיכותם; בסיומו (או תוך כדי) של כל פרויקט הן עורכות ישיבות על "מה פטנטבילי ממה שעשינו" ומביאות עורכי דין שיעזרו למהנדסים למצוא דברים כאלה. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |