גוגל אנליטיקס מוחק מידע היסטורי מהחשבונות למי שלא נוקט בפעולה

data shredding

קוראים נכבדים, מאמר זה מכיל חומרים עיוניים הקשורים לתחום פרטיות המשתמש העשויים להשפיע על היבטים משפטיים הנוגעים לכל מי שכחלק מפעילותו אוסף מידע על משתמשים. הכותב ובעל הבלוג הלוא הוא אני, לא ישא באחריות כלשהי העשויה לנבוע מהכתוב במאמר זה ובבלוג בכלל. קריאה מהנה.

אמ”לק: גוגל אנליטיקס כבר עכשיו הגדירה שמידע השוכן בחשבונכם מעל 26 חודשים ימחק לאלתר וישאיר אחריו מידע אגרגטיבי בלבד. פעולה זו תכנס לתוקף החל מה-25/5/18. להסבר כיצד למנוע זאת לחצו כאן.

נושא פרטיות המידע עולה מדרגה והשפעותיו מגיעות גם לגוגל אנליטיקס. תקנות ה-GDPR של האיחוד האירופי מאלצות חברות מובילות בתחום לנקוט בצעדים חריגים בכל הקשור לאיסוף מידע על משתמשים. הרגולטור כאמור לא פסח על גוגל ועל גוגל אנליטיקס בפרט. ההשלכות מיתגלות בימים אלו ובהצהרה דרמטית גוגל מכריזה על כוונתה להתחיל למחוק מידע היסטורי מחשבונות גוגל אנליטיקס ולהשאיר אחריו מידע אגרגטיבי בלבד אלא אם האדמינים השולטים בחשבונות יגדירו אחרת. שינוי זה יכנס לתוקף החל מה-25/5/18.

צעד חריג מאד, גוגל אנליטיקס מכריזים על כוונתם לבצע מחיקת נתונים
google analytics data retention email

באופן אגרסיבי, בגוגל אנליטיקס מתכוונים להחיל את המדיניות החדשה על כל החשבונות הקיימים החל מה-25/5/18 וכן על חשבונות שעתידים להיוצר. בעלי חשבונות שלא יעשו דבר בנידון עשויים לאבד ביום אחד את כל המידע ההיסטורי שברשותם ואף ימשיכו לאבד חלקים נוספים ממנו בכל חודש שיעבור.

הכוונה למחוק מידע מולידה פיצ’ר חדש בממשק האדמין של גוגל אנליטיקס הנקרא Data Retention (בתרגום העברי “שמירת נתונים”). המאפיין יאפשר לכם לשלוט במנגנון שמירת הנתונים. אם תחפצו בכך, קיימת גם אפשרות לבטל את פעולת המחיקה. במאמר זה אסביר כיצד מתכוונים גוגל אנליטיקס לטפל בנושא שמירת הנתונים ואיך תוכלו למנוע את מחיקת המידע שלכם בהגדרה אחת פשוטה.

Data Retention Controls, שליטה בשמירת הנתונים.

השליטה בשמירת הנתונים מורכבת משתי הגדרות:

ההגדרה הראשונה: לכמה זמן לשמור את הנתונים?

באפשרותכם לקבוע לכמה זמן המידע ישמר. הזמן נקבע במספר חודשים שגוגל קבעו מראש: 14, 26, 38 ו-50. בהמשך המאמר אתייחס למספר זה כ-“N”. לחלופין ניתן באותה אפשרות להגדיר שהמידע לא יפוג כלל ובכך למעשה להחזיר את המצב לקדמותו.
גוגל מגדירים כברירת מחדל בכל החשבונות הקיימים ואלה שעתידים לבוא תקופת שמירת נתונים של 26 חודשים אחורנית (שנתיים וחודשיים).
הבא נשים קץ לדאגות ונראה מה צריך לעשות בכדי למנוע ממידע להמחק.

מה צריך לעשות בכדי למנוע מהמידע להימחק?

הפעולה הינה די פשוטה, כל שעליכם לעשות זה לגשת לאדמין להעביר את ההגדרה “User and event data retention” מ-26 חודשים ל-“Do not automatically expired” כפי שאני מראה בתמונה. אציין שאינני לוקח אחריות על המלצה זו. מציע לכם להתייעץ עם עורך דין לפני שאתם משנים הגדרה זו על דעת עצמכם על אחת כמה וכמה אם אתם חברה הפונה לשוק האירופאי.

תקבע לכמה חודשים ישמרו הנתונים, האפשרות User and event data retention באדמין.
google analytics data retention tutorial

איך תהליך המחיקה הולך לעבוד?

גוגל תריץ פעולה חודשית (Job בעגה התיכנותית) שתשמר N חודשים של נתונים אחורנית ותימחק נתונים שקדמו לתקופה זו. נדגים: נניח שמוגדר אצלכם בחשבון שהמידע ישמר עד 14 חודשים. בהנחה שפעולת שמירת הנתונים קוראת בראשית כל חודש, בתחילת החודש הבא המערכת של גוגל אנליטיקס תסיר לאלתר מידע שנשלח לפני מעל 14 חודשים ותשאיר אתכם עם נתונים שגילם הינו עד 14 חודשים. במשוואה זו ישנם 2 מרכיבים נוספים עליהם אפרט בהמשך: שימור מידע עבור משתמשים פעילים ומידע אגרגטיבי.

כל זה נכון כל עוד ההגדרה Reset on new activity במצב OFF. גישה מחמירה זו תגרום לכך שכל פיסת מידע, כל פעולה שנשלחו לפני יותר מ-14 חודשים ימחקו, גם אם המשתמש ביקר אתכם אתמול. אם תרצו, גוגל לוקחת גרזן וחותכת את זנב המידע של המשתמש ומותירה אותו עם החלק היותר עדכני שלו במידה ויש כזה.

מדובר בסוג של שיגעון מבחינת גוגל אנליטיקס כמוצר שמתיימר (ובאמת רוצה) לתת לנו דאטה איכותי שכן פעולה שכזאת תגרום לכך שהמידע שנותר במסגרת ה-N חודשים יכיל חצאי סיפורים של משתמשים. אמנם, לאחר פעולת המחיקה, כשתסתכלו על דאטה מה-3 חודשים האחרונים, סביר שלחצאי סיפורים אלה תהיה השפעה מינורית אבל בא נאמר שהייתי ניזהר בניתוח דאטה של השבוע הראשון בסט כזה של נתונים – שכן סביר שיהיו שם הרבה חצאי סיפורים.

ההגדרה השניה: האם זמן שמירת המידע של המשתמש יוארך בהתאם לפעילות המשתמש?

הגדרה זו עוסקת בשאלה האם לשמור מידע עבור משתמש שהיה פעיל ב-N חודשים האחרונים. אם המשתמש לא היה פעיל, אז אין איפה להתבלבל – המידע שלו ימחק. אבל במידה והמשתמש היה פעיל, גוגל תאפס את תקופת שמירת הנתונים של אותו משתמש ל-N חודשים נוספים כל זאת מבלי למחוק את המידע הותיק שלו.
על מנת לעבוד במצב זה, שימו את Reset on new activity במצב ON.

הגדרות שמירת הנתונים הינן ברמת ה-Web Property. אם ברשותכם מספר נכסים, יהיה עליכם לבצע את ההגדרה פעם אחת עבור כל נכס. לשינוי בהגדרה זו לוקח 24 שעות להכנס לתוקף.

המידע האגרגטיבי נשמר לתמיד

מצד אחד גוגל אומרים שהם מתכוונים למחוק נתונים מחשבונות בעוד שמהצד מצד השני הם מציינים בסימוכין הרשמיים שהם מתכוונים דווקא לשמור את מה שמכונה המידע האגרגטיבי. מבולבלים? לְמה גוגל אנליטיקס מתכוונים כשהם מתייחסים לאותו מידע אגרגטיבי? הנושא במלואו סבוך ועוסק במאחורי הקלעים של גוגל אנליטיקס, אני לא מתכוון להלאות אתכם בכל הפרטים. במקום, אנסה לפשט לכם את הנושא בכמה נקודות ובסוף לנסות להבין איך זה יבוא לידי ביטוי בפועל.

כל מה שאתם צריכים לדעת על טבלאות אגרגטיביות בגוגל אנליטיקס

  • גוגל אנליטיקס שומר את המידע שמגיע אליו בלפחות 2 טבלאות במקביל:
    • טבלאות Raw המכילות מידע במצב צבירה נע.
    • טבלאות מעובדות המכונות גם טבלאות אגרגטיביות.
  • טבלאות ה-Raw יכולות לבנות סיפור שלם של משתמש אינדיבידואלי מאחר ואלה מכילות כל פיסת מידע אפשרית כולל מידע רגיש היכול להצביע על משתמש בודד: Client-ID ו-User ID. הטבלאות האגרגטיביות לעומת זאת אינן מכילות מידע רגיש, הן מכילות מידע שעוּבד מבעוד מועד כדי שנוכל לשלוף אותו ביעילות וללא סימפול.
  • והרי הקאטצ’: לא תמיד התשובה לשאילתה שאתם עושים בגוגל אנליטיקס מגיעה מהטבלאות האגרגטיביות, לא פעם השאילתה מופנת לטבלאות ה-Raw. לדוגמא בכל פעם שאתם נכנסים למצב סאמפלינג, או משתמשים ב-Secondary Dimension, תהיו בטוחים שהמידע שחוזר אליכם מגיע מהטבלאות ה-Raw.

עכשיו שאנחנו פחות או יותר מבינים מה הן טבלאות אגרגטיביות, אנחנו יכולים לחזור לנושא העיקרי: מחיקה ושמירת נתונים. כשגוגל מדברת על מחיקת נתונים, היא מתייחסת למידע הנמצא בטבלאות ה-Raw. כאמור, נתונים אגרגטיבים ישמרו.
בפועל זה אומר שאם לדוגמא הגדרתם שאתם רוצים שגוגל אנליטיקס ישמור על המידע שלכם 14 חודשים, במידה ותנסו לנתח מידע שקדם לתקופה זו (כזה שנמחק מטבלאות ה-Raw) אז שאילתות ודוחות פשוטים בממשק יציגו לכם את המידע שכן מידע זה מגיע מהטבלאות האגרגטיביות שם המידע ישאר זמין. אבל ברגע שתנסו לבצע ניתוח אחד יותר מזה, פעולה קטנה כמו הוספת מימד, הפעלת סגמנט מתקדם שתאלץ את גוגל אנליטיקס לגשת לטבלאות ה-Raw, זו תוביל אתכם לאחד מ-2 מצבים לא סימפאטים:

  • אם הגדרתם לשמור נתונים עבור משתמשים פעילים, תתגלה בפניכם תמונה עגומה של מידע מצומצם המבוסס רק על משתמשים שהיו פעילים אצלכם ב-N חודשים האחרונים.
  • אם הגדרתם שלא לשמור נתונים עבור המשתמשים הפעילים שלכם, אתם תגלו שאין לכם מידע לעבוד עליו שכן זה נמחק כליל.

בסופו של יום הטבלאות האגרגטיביות הינן סוג של כלי יעיל מאד מצד אחד אך מצד שני כלי סגור מאד שאין ביכולתו להתרחב אלא רק להצטמצם. כשהתרחבות נדרשת, גוגל אנליטיקס יפנה אתכם לטבלאות ה-Raw, אלו שמכילות את כל המידע, אלו שהמידע מהן ימחק.

לא נעים לומר, אבל אנחנו עתידים להחשף בעתיד הקרוב והרחוק למקרים שבהם לא מעט חברות יבינו באיחור שכמעט כל המידע ההיסטורי שלהם נמחק בגלל שאלה לא שינו את הגדרות שמירת הנתונים בחשבון שלהם. אם נהיה כנים לרגע, אני חושב שלרובן זה לא כל כך ישנה שכן מידע בן 2 שנים וחודשיים הוא ברוב המקרים מעל ומעבר למה שחברות צריכות (מתי פעם אחרונה ניתחתם לעומק מידע מלפני 3 שנים?).
שתפו את המאמר עם הקולגות שלכם כדי שגם הם יהיו מודעים לעניין ויבינו את המשמעויות של השינויים שעומדים לצאת לפועל בקרוב.

מילות סיום

חשוב להבין שחוקי הרגולציה חלים לא רק על גוגל כבעלת השליטה בגוגל אנליטיקס, מוצר מוביל ברמה עולמית לניטור משתמשים ברשת אלא גם על החברות העושות שימוש במוצר זה. אינני בקיא ברזי התקנות החדשות אבל מה שדי ברור זה שהחוק מתייחס לחברה באשר היא והדאטה שהיא אוגרת, גם אם הוא מאוכסן בענן של חברה אחרת. מכאן שגוגל לא רק מחוייבת אלא גם רוצה לתת את הכלים הראויים שיאפשרו לחברות לציית לחוקים החדשים.

עצם העובדה שגוגל מגדירה מראש ששמירת הנתונים תחול על כל החשבונות בלי יוצא מן הכלל כברירת מחדל, היא סוג של פותרת עצמה מאחריות משפטית: אף מנכ”ל לא יוכל לטעון נגד גוגל שהיא לא עשתה כלום והמשיכה לאגור מידע של החברה שלו על אף שידעה על התקנות החדשות. מראש גוגל מגדירה מחיקה לכולם ומותירה את השליטה על שימור הנתונים בידי בעל החשבון.

אם תרצו, אולי חצי הכוס המלאה מבחינת גוגל זה שבקרוב עומד להתפנות אצלם הרבה מקום בשרתים מנתונים של מיליוני אתרים לא פעילים, של בעלי אתרים שחשבון האנליטיקס שלהם לא בראש מעייניהם או פשוט של חברות המעוניינות לעמוד בתקנות ה-GDPR. מי יודע איזה סוג של טקס מתכננים הצוותים של גוגל אנליטיקס איי שם בארצות הברית לקראת היום הגדול שבו מכונת ההשמדה הזו תופעל בפעם הראשונה בפרודקשן ותימחק מי יודע כמה אלפי פטה-בתים של מידע.

עכשיו מטאל