ממשלת ישראל 🇮🇱 חשפה שהיא תחלוק עם פייזר ״נתונים סטטיסטים״ לגבי החיסון. סקר קצר בטיווטר מראה שרבים מכם מעוניינים לדעת עוד על פרטיות, שיתוף מידע, וביג דאטה. התחום הזה היה אחד מנושאי המחקר של המעבדה שלי.

אז הנה השרשור🧵.
מתחילים!
👇👇👇
גילוי נאות: אני כותב כאן אך ורק בכובע האקדמי שלי. אין לי שום מידע פנימי לגבי העסקה עם פייזר ואני ניזון רק ממה שאני רואה בכלי התקשורת.
הרבה מהשרשור מתבסס על המאמר שלי ושל @random_walker ב @NatureRevGenet:
https://www.nature.com/articles/nrg3723
טוב, עכשיו באמת אפשר להתחיל. אמלק: אני בעד העסקה.
קודם כל נזכיר שהאפשרות לחלוק דאטה היא נשמת אפו של המדע המודרני. איך פיתחו לכם חיסון כל כך מהר? חוקרים בסין רצפו את הוירוס ו*חלקו* את המידע הזה כך שתוך יומיים חוקרים ב NIH יכלו לפתח עם מודרנה את החיסון. אותו כנ״ל להמון מחקרים וטיפולים. צריך למצוא דרך לחלוק מידע ולכבד את הפרטיות.
בגדול, ישנם שתי טכניקות מקובלות לשמירת פרטיות במידע: deidentification (התממה) ו aggregation (איגום נתונים). ישנם רעיונות יותר מתקדמים בספרות כמו differential privacy ו homomorphic encryption אבל הם יותר אקדמיים ופחות מעניינים אותנו בקשר לעסקה עם פייזר.
הרעיון בהתממה הוא דיי פשוט. פשוט מורידים מהרשומות שדות מזהים כמו ⛔️שם, ⛔️כתובת,⛔️תעודת זהות וכו׳ ואז הרשומות הם לא מזוהות. קל - נכון?
לא! 😬
בשנות ה 90, מסצ׳וסטס אפשרה לבתי חולים לחלוק רשומות רפואיות ללא מזהים לצורך מחקר. @LatanyaSweeney הראתה שהיא יכולה בקלות לזהות את הרשומה הרפואית של מושל המדינה 😱. הרשומות הכילו את המיקוד, המין, ותאריך הלידה של החולים. מסתבר של 60% מהאמריקאים הקומבינציה הזאת היא יחודית. אז...
לטניה פשוט לקחה את פנקס הבוחרים והצליבה בינו לבין הרשומות עד שמצאה את המושל.

כמה קל לזהות אנשים בתוך דאטה? בשביל זה, נכניס מושג טכני:״ביט״. ביט הוא יחידת מידע שחותכת לך את כמות האפשרויות בחצי.

נניח שצריך למצוא רוצח ויש לך 100 חשודים אקראיים. אז אם אני מספר לך שהרוצח הוא בעצם..
רוצחת אז בממוצע חתכתי לך חצי מהאפשרויות ונשארו לך רק 50 חשודים - כלומר הרווחת ביט אחד. אם אני מספר לך שהרוצחת היא שמאלית (15% מהאוכלוסיה), אז פסלנו בערך עוד 43 חשודים ונשארנו רק עם שבעה. כלומר הרווחנו עוד 2.7 ביט (=log2 של 0.15).
ואפשר להמשיך ככה עד שנזהה את האדם.

כמה ביט...
צריך כדי למצוא מישהו בתוך כל אוכלוסיית ישראל (9 מיליון איש)?
קל.
log2(9*10^6) = 23bits
זה הכל.
אז אם יש ברשומה גובה מדויק (5ביט), מין (ביט), שנת לידה (6.3ביט), סוג דם (2.2ביט), צבע עניינים (1.4ביט), עיר (6ביט), ומצב משפחתי (נניח ביט), כנראה יש לכם מספיק מידע כדי לזהות את הרשומה!
אז בוא נעשה סדר: אם יש לך רשומות רפואיות שכוללת מידע דמוגרפי מפורט ומאגר מידע טוב של כל עם ישראל (מישהו אמר אגרון 2006?), כנראה יש לך יכולת לזהות רשומות מותממות.

בוא רגע נעשה detour ונדבר על מידע גנטי (למרות שלא רלבנטי לפייזר כן מעניין בהקשרי פרטיות).
במידע גנטי המצב יותר פסיכי. ב 2013 הראנו שניתן לחלץ שמות משפחה מתוך גנומים "אנונימים". הרעיון הוא שגברים מקבלים בדרך כלל את שם המשפחה ואת ה Y-chromosome מאותו מקור. ולכן אם אני רואה את ה Y-chr, אני עשוי להבין את שם המשפחה ולטרגט את הבן אדם. עובד כמו קסם! https://science.sciencemag.org/content/339/6117/321
חזרה למידע רפואי.
האם אנחנו צריכים להיות מודאגים מעסקת פייזר? לא בהכרח!

ל*מיטב הבנתי*, ההכרזה הייתה שיחלקו מידע סטטיסטי (aggregate data) ולא מידע אינדבידואלי מותמם.

מה זה מידע סטטיסטי? במקום לתת רשומות ללא מזהים, אנחנו פשוט נותנים את ההתפלגות של התוצאות. למשל, בבחירות...
אסור לחשוף את ההצבעה של כל מצביע, אבל ועדת הבחירות מפרסמת באופן תדיר את התפלגות הפתקים בכל קלפי. באותו אופן, אפשר לחשוף לפייזר את התפלגות האנשים שנדבקו לאחר החיסון בפילוח זמן וקבוצת גיל.

כל זמן שכל פלח מכיל מספיק אנשים (נניח מעל 100) קשה מאד לזהות מישהו בתוך הדאטה. כמה זה ״קשה״?
יש התקפות מתוחכמות שיודעות לחשוף מידע מתוך פלח. למשל, @nilshomer פרסם ב 2008 מאמר כזה:
נניח שאתה עושה מחקר על הגנטיקה של התמכרות לסמים קשים עם 100 מכורים. כדי לשמור על הפרטיות שלהם אתה רק חולק את ההתפלגות של כל מוטציה בגנום בקבוצה. המאמר הראה שאם יש לך גנום של מישהו, נגיד...
מועמד לעבודה, אתה יכול לבדוק אם הוא השתתף במחקר למרות שכל מה שיש לך זה התפלגויות. אם הוא השתתף - למדת עליו שהוא מכור לסמים קשים וחשפת עליו פרט מביך!

המאמר הזה עשה שמות בשיתוף דאטה גנטי.

אבל מאז למדנו כמה דברים:
1. אתה חייב דאטה סופר רב-מימדי כמו גנום. זה לא המצב בפייזר.
2. ההתקפה הזאת ודומות לה לא בשלות טכנית. הם הודגמו בעיקר כתרגיל אקדמי ודורשות מהתוקף ידע מוקדם נרחב שכנראה לא ריאלי (ואם יש לו את הידע הזה, מצבנו קשה בלי קשר).
3. גם כאשר ההתקפות האלה עובדות, הם לרוב מחזירות מידע באיכות ירודה.

הקונסזוס בקהילה שהסיכון מהתקפות כאלו הוא נמוך מאד.
ולכן, אני מעריך שכל זמן שהפלחים יהיו גדולים מספיק, אפשר להיות רגועים בהביטי פרטיות.

אבל השרשור הארוך הזה לא יהיה שלם בלי שלוש נקודות:
א. פרטיות היא אף פעם ערך בפני עצמו. כולנו מוותרים על בצורה מסוימת על הפרטיות שלנו כדי להשיג דברים כמו...
בדיקה רפואית או ככורח החוק: מיסים, בדיקות בשדה תעופה, צבא, וכו׳. תמיד יש סיכון מסוים כאשר חולקים מידע, אבל מצד שני מונח כאן על הפרק היכולת להביא חיסונים למדינה ובתקווה לסיים את המצב הארור הזה. יתרה מכך, הדאטה הזה חיוני לא רק לישראל אלא לאנושות כולה. לכן, אפילו אם יש סיכון מסוים,
אני חושב ששווה לקחת אותו כי המון מונח על הפרק.

ב. היה ראוי לשקיפות גבוהה יותר לגבי איזה דאטה פייזר תקבל. המון מהאנליזה שלי היא מבוססת על הנחות סבירות, אבל אני יכול לטעות. לכן, ראוי לחשוף עוד לציבור.

ג. אם הפרטיות נשמרת, ממשלת ישראל תעשה בחוכמה אם תפתח את הדאטה לכולם ולא...
רק לפייזר. אנחנו חלק מהאנושות, והולך להתבצע כאן הניסוי שדה הכי גדול של המאה ה 21: קורונה מול חיסון.

אי אפשר לסלא בפז את חשיבותו של הדאטה. כמו שחוקרים סינים חלקו עם העולם את הרצף של הוירוס ואיפשרו לאזרחי ישראל לקבל חיסון 11 חודשים לאחר מכן, 🇮🇱 יכולה לחלוק עם העולם האם החיסון
עובד כמתוכנן.

זהו. יצא ארוך אבל מקווה שהיה מעניין!
אה, ואני ממש אודה לכם אם תוכלו לרטווט . אין לי הרבה עוקבים בישראל וכתבתי בעברית כדי להנגיש לקהל הרחב 🙏🙏🙏.
You can follow @erlichya.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled:

By continuing to use the site, you are consenting to the use of cookies as explained in our Cookie Policy to improve your experience.