כריית נתונים וייצור ידע

מאת: אדית אורי, MSC מהנדסת תעשיה וניהול, מנכ"ל Procedureware, מפתחת GT data mining

 S_TH_rtf2990003287_34576151

 

בטיול בדרום מערב אמריקה, הרמתי אבן גדולה שנצצה בברק צהוב בערוץ נחל. נשימתי נעצרה, זהב? "זהב של שוטים, זהו סתם קוורץ", צינן באחת ברנש מקומי את התלהבותי. בכל אופן לקחתי את האבן, למזכרת. לאחרונה, במפגשים עם העוסקים בכריית נתונים, נזכרתי באירוע הזה. כל אחד וערוץ הנתונים שלו, הופך וחופר כאילו בטוח שאם ישחק מזלו, ויש עדויות להצלחות קודמות בעניין, ימצא את חוקי הזהב אל צפונות העתיד. בעשור האחרון, כמו במערב הפרוע, קמה במידע תעשייה שלמה המבקשת לספק את צורכי גדודי הכורים: כלים, מדריכים, סוחרים, מגיני החוק ומקומות אירוח שוקקים. אולם בניגוד לבהלת הזהב, שהתבססה על חלומות רחוקים, כריית נתונים עוסקת בדברים שרבים התנסו בהם בעצמם, יש בהם הגיון, ואפשר היה להמשיך ולנתח אותם בשיטות הישנות, לולא כמויות הנתונים העצומות ומורכבותם. וזאת הבעיה. קצב ייצור הנתונים הולך ומתגבר, בעוד שקצב הסקת המסקנות עדיין תקוע עם מתודולוגיות סטטיסטיות מאמצע המאה שעברה, עוד מלפני כניסת המחשב!

דפדוף בפרסומים על data mining בעשור האחרון מוכיח שהנושא אמנם דורך במקום, ואולי אפילו מדרדר. הסימנים: עדיין אין פתרון סדור לייצור ידע, עלות הבעלות על הפתרונות היא יקרה מדי, בעוד שכמויות הנתונים ממשיכות להיערם בקצב מסחרר (ולהישאר, ברוב המקרים, ללא שימוש).

שיעור ניצול הנתונים יחסית לפוטנציאל הידע שבהם הוא זעיר. יש המעריכים אותו בפחות מאחוז אחד. רוב הנתונים נוצרים ליישום מסוים ונותרים אח"כ שנים ללא שימוש (אבל עם עלויות אחזקה). זהו מצב לא רציונאלי. אנשי הכספים החלו לשים לב לאבסורד של השקעות ענק במידע ללא החזר (ROI). במאמרו, 10 rules for managing technology, שפורסם באוגוסט 2006 בירחון האמריקאי Accounting, טוען רו"ח Gary Boomer שאילו היו מציגים למנהלים את ההשקעות במידע כפי שהן, ולא בשיטת "חמאת בוטנים", כשהן מרוחות דק על פני סעיפים רבים, אף אחד לא היה נשאר אדיש נוכח ה-ROI הנמוך להחריד שלהן.

מהו הגורם המפריע שנתקע בגלגלי ה- data mining? יתכן וזו העובדה שמרבית הפתרונות מגיעים ממגדל השן האקדמי, שאינו מתעסק בהכרח בזוית המעשית של היישום. יתכן וה"סיבוכיות" היא נושא שאינו ניתן לפתרון אנליטי. אך מתקבל יותר על הדעת שיש פתרון, אם כי לא בסטטיסטיקה שעקרונותיה מתנגשים עם צורכי כריית הנתונים. כך לדוגמא:

 

* השיטה הסטטיסטית מחיבת הצגת שאלות ומטרות ברורות, בעוד שבכריית נתונים הן לא מוגדרות. לדוגמא השאלה "מה מלמדים נתוני שנה שעברה?" היא בלתי-מסוימת ואין לה תשובה בסטטיסטיקה.

* הדגימה שמחיבת סטטיסטיקה מתנגשת עם רעיון הנתונים החופשיים (unsupervised) של כריית נתונים

* ניקוי והכנת נתונים על פי המודל הסטטיסטי הוא תהליך שעוצר ומפריע למחשוב.

* הישענות על השערות מוקדמות סותרת את הרעיון של גילוי ממצאים חדשים, וכן הלאה.

נוכח סתירות כאלה לא יעזרו פלפולים, יש צורך להחליף את הפרדיגמה הסטטיסטית, וזה מה שעושה GT.

 

שמו של GT, Group Technology, מעיד על כוחו העיקרי, שהוא הקבצת נתונים דומים ב- clusters, קבוצות אחידות שניתן לראותן כפריטי-על מרוכזים. אחידות הפריטים או האירועים בתוך הקבוצות מבליטה דפוסי התנהגות אופייניים ומקלה על איתור גורמים משפיעים בכל קבוצה. כאן טמון ההבדל בין GT לאחרים. הוא אינו מחייב השערות מוקדמות, אלא חושף אותן. הוא מפרק קשרים סבוכים. הפתרון החדש הזה אדיש לפגמים בנתונים ואפילו מנצל אותם כדי לאבחן תופעות המתרחשות בתנאים מיוחדים… GT איננו חדש כל כך בעקרון אחד שלו, עקרון חריגים. בו הוא מסתמך, למעשה, על תורת-האינפורמציה שלפיה "ערך נתונים חריגים גבוה משל נתונים לא-חריגים". עקרון החריגים מאפשר לאתר תופעות, אשר בפתרונות אחרים מושלכות החוצה בעת ניקוי הנתונים (הניקוי הנהוג במודל הסטטיסטי גורם לבעיה חמורה נוספת של הכנת נתונים כך שיתמכו בהנחות הראשוניות, ובמילים אחרות – בעיה לוגית של הנחות המאשרות את עצמן ).

הורגלנו  שהוכחת נכונות תיאוריה כלשהי כרוכה בהצלחת הניבוי שלה. אבל אין זה מספיק. מה יצא לנו מכך שננבא נכון את כמות התקלות אשר יקרו? מה נרוויח מכך שנדע כמה תלונות יגיעו ל-CRM? או מה אחוז הנטישה של לקוחות?! הרי ברצוננו למנוע תרחישים מזיקים כאלה, לא סתם להצליח לנחשם נכון. ולשם התערבות פעילה למניעה או להכוונת האירועים, דרוש לנו לדעת מהם הגורמים המשפיעים עליהם, ה- cause‑effect factors. כריית נתונים היא כלי ניהול, כלי לשליטה בתפעול, ולא משחק ברולטה של מספרים. דרישה זו – לשלוט באירועים ולא רק לנבא אותם, היא עליית מדרגה ביחס למקובל במודלים של כריית מידע. אני מודה שלא הקדשתי לכך תשומת לב בתחילה, עד שקיבלתי תגובה זועמת מפרופסור לסטטיסטיקה: "כדי למצוא גורמים סיבתיים צריך שהנתונים ייוצרו בסביבה מעבדתית מבוקרת", הוא נזדעק בחימה על הפגיעה בעקרון המקודש. לא אפרט את השתלשלות מלחמת הישן מול חדש איתו, רק אגלה שיש לה סוף טוב, וודאי תשמחו לדעת שניתן למצוא גורמים סיבתיים גם בלי מעבדה מבוקרת, ושניתן להסתפק בבקרה המוטבעת בתפעול ובנתונים כמו שהם, ללא התערבות.

 

דוגמאות

1.       ניהול העסק

ברוב העסקים קיים בסיס נתונים מצטבר, האמור לשמש לקבלת להחלטות, להפקת לקחים ול"קיצור עקומות למידה" בפעילות עתידית. הקושי הוא בארגון החומר הרב בצורה מובנת למנהלים, או במילים אחרות: "לראות את היער דרך העצים". חלק מהנתונים מגיע ממקורות שונים, באיכויות מגוונות, והפרויקטים של אינטגראציה וסטנדרטיזציה יקרים ומכבידים, במיוחד בארגונים בעלי מגוון מוצרים גדול וכמויות קטנות (מה שנקרא ייצור-גמיש).

GT מספק לכך תשובה ע"י ריכוז פריטים בעלי תהליך דומה בתאי-ייצור וניהולם יחד. הוא שונה משיטות אחרות בכך שמתחשב במספר גדול מאד של גורמים בהגדרת הקבוצות. היתרונות הנובעים מהגדרת תאי-ייצור הם מרחיקי לכת, כמו שגילו היפנים הרבה לפנינו:

*הגדלת התמחות

* ייעול

* שיפור איכות (עקב הקטנת שונות תהליכים)

* הורדת התלות בספק או לקוח יחידים (עקב הסטנדרטיזציה)

* זירוז תגובה לדרישות, הגדלת תחרותיות

* שיפור רצף זרימת עבודה, הקטנת מלאי והקטנת הון תפעול בהתאם

* החזר כספי גבוה יותר מהשקעות תשתית

 

2.       ניהול האיכות

המיוחד ב-GT, הוא אבחון גורמי תקלות מרובים, כולל אלה הטמונים בסביבה. לדוגמא, במפעל שבו הופעלה השיטה נמצאו שתי נקודות תורפה שגרמו לשרשרת ארוכה של תקלות איכות. בעוד המהנדסים שוברים את הראש על מבול הקלקולים התוצאתיים, המשיכו שתי הבעיות שגרמו לכל העניין לקלקל את הייצור (נקודות התורפה: א' – שינוי היחס המספרי בהזמנות של שתי משפחות מוצרים, ו-ב' – פרמטרים מורכבים בתנורי הייצור). תיקון יסודי של תקלות האיכות משמעו חסכון הפחת בייצור וצמצום עבודות תיקון במפעל.

 

3.       מודיעין עסקי – BI

ככל שהביזור הניהולי מתרחב, גובר הצורך לרכז עבור מקבלי ההחלטות את תמונת המצב המפוזרת בין ספקים, קבלני משנה, משווקים, לקוחות, רשויות מפקחות (בורסה, איכות, סביבה) וכו'. GT מזהה בפעילות המורכבת תופעות רב-מימדיות, המחייבות תשומת לב ניהולית. לדוגמא, באגף אחזקה של אחד הבנקים, זיהה GT קבוצת חריגים של קבלני ניקוי בחוזים מיוחדים. השוואת הקבוצות גילתה הבדל משמעותי בכדאיות של העסקת קבלנים בחוזים חדשים לעומת חוזים ישנים בתחומים "שיפוץ מבנים" ו"ניקיון". כתוצאה, התברר (מבלי שנשאל על כך) מהי מדיניות החוזים העדיפה.

 

4.       תרמיות

גילוי תרמיות – fraud detection הוא מרוץ קשה מול עבריינים משוכללים, הנמצאים בד"כ צעד אחד קדימה. לארגון יש במרוץ כזה יתרון מבחינת ראיית התמונה השלמה של הפעילות ואפשרות יזמת מניעה. הבעיה היא, שדפוסי פעולה עברייניים הינם מיעוט מקרים, לכן בלתי-אפשרי במודל הסטטיסטי לאתר אותם ולהתכונן (הפעולות העברייניות נעלמות בתוך השונות הכללית). הגנת מידע מחייבת להיות צעד אחד לפני הפורצים ועבריינים אחרים. היתרון של GT הוא ביכולת להגדיר דפוסי התנהגות המופיעים במינון זעיר, לאותת על אירועים חשודים בשלב מוקדם, ולאפשר סיכול. הדמיון במושגים לאלה של מודיעין אינו מקרי, יש הרבה מן המשותף למודיעין עסקי וצבאי בכלל.

 

5.       סקרים

סקרים בשיטה הסטטיסטית הם דוגמא טיפוסית לאי-היעילות הסטטיסטית. לא זו בלבד שמבזבזים בהם נתונים, כפי שמתואר בסעיפים לעיל, אלא שבין המשתמש והחומר המקורי חוצץ קיר עבה של פרשנים ומומחים לניתוח נתונים, והמזמין לא רואה בד"כ את נתוני המקור ולא יכול לבקר את איכות הניתוח. אחת לתקופה מתגלה שערורייה של מראיינים שהמציאו נתונים ומנתחים שכשלו, כמו זו שפרצה לאחר בחירות ש"ז. בעקבות שערורייה תמיד מנקים אורוות, אבל ב-GT חושבים שהגיע הזמן להחליף את הסוסים כולם ביחד בכלי תעבורה מתקדם יותר. כלי שיאפשר לגלות עקבותיהם של מראיינים "יצירתיים", לחשוף תופעות מורכבות בלי תלות בקונספציות של מומחים, ולנצל את הנתונים המצטברים לניתוח מגמות ולהעמקת הבנת המתרחש.

6.       מחקר

האתגר במחקר הוא לנתח נתונים בתנאים של אי-מספיקות. הניסויים הם החלק היקר במחקר, ולכן יש מהם מעט, יחסית למספר ההשערות שיכולים להביא המומחים החוקרים. מחקר גנטי, לדוגמא, עשוי להכיל מספר גדול יותר של משתנים מאשר נקודות ניסוי. הבעיה היא שאמינות המסקנות הינה בהתאם למספר נקודות הניסוי, ומעט ניסויים פירושו אי-אמינות במסקנות.

מחקר עשוי להימשך שנים, ואין גבול לתסכול כאשר למרות שמבצעים אותו לפי כל הכללים, הוא מסתיים בלא-כלום. לפי GT, יש סיבה מובנית לכשלים אלה במחקר. התפיסה הסטטיסטית גורמת לרידוד נתונים, להתעלמות מכל אפשרות שלא ניתן לנסח מראש, להנחה שרירותית ביחס לסביבת המחקר כאילו היא קבועה – כל אלה הם מישגים העולים ביוקר.

7.       ביוטכנולוגיה

ביוטכנולוגיה מכילה תחומים שונים ומגוונים, שהבולטים ביניהם:  מחקרים קליניים, ביו-אינפורמטיקה, גילוי תופעות לוואי שליליות בתרופות, פיקוח מגפות (כמו שפעת העופות). המכנה המשותף לכל אלה הוא הקושי הנובע מהסיבוך, מהכמות העצומה של גורמים שיש ביניהם תלות הדדית (לדוגמא, תלות בין אזור גיאוגראפי למאפיינים גנטיים באוכלוסיה). סטטיסטיקה מצריכה כמות אדירה של אירועים לצורכי ניתוח הגורמים וצירופיהם האפשריים, שלעולם אינה ניתנת להשגה בתנאי סביבה קבועים. כדי להיחלץ מבעיות מחסור אירועים, נעשה בשנים האחרונות מאמץ קדחתני בעולם הביוטכנולוגיה להחלפת הסטטיסטיקה בשיטות מסוג כריית נתונים. משרד הבריאות האמריקאי הציב, לפני כשנתיים, דרישות עקרוניות מכלי כריית הנתונים הרצוי, זאת בנוסף לדרישות המדעיות הרגילות – אובייקטיביות, שחזוריות, והפרכתיות. כלי כריית נתונים נדרשים להתאים לצורת המחקר של היום, לדעת לטפל בנתונים ממקורות מגוונים ודינאמיים, ולהיות מסוגלים להתמודד עם שפע הנתונים הזורמים משותפי מחקר בארצות שונות. מה חסר בדרישות החדשות הללו? כרגיל – הצד המעשי. אין בהן התייחסות לעלות-תועלת ולנוחות השימוש בכלי העבודה.

 

לסיכום יתרונות פתרון GT לכריית נתונים, אמנה מספר תכונות חשובות מבחינה מעשית של המשתמשים: היכולת לאבחן נכון תופעות חדשות בפעם הראשונה (רעיון ידוע מתחום ניהול האיכות), כיסוי התופעות שבמרחב הפתרון, ניצול משאבי מידע ויכולת הסקה מנתונים בהיקף מצומצם. החשבון פשוט: המשתמשים רוצים לנצל, קודם כל, את הנתונים שבהישג ידם באופן ישיר, ז"א ללא מומחים מתווכים, ובעזרת כלים המייצרים ידע חדש.

 

 

 קישורים רלבנטים באתר:

מנהיגים ברשת

www.leadersnet.co.il

leaders@leadersnet.co.il

© כל הזכויות שמורות ל"מנהיגים ברשת" אפריל 2003. החומר מותר לשימוש אישי בלבד. אין לעשות בחומר שימוש מסחרי/עסקי ו/או להפיצו בכל דרך שהיא (להוציא באמצעות יצירת קישור למאמר ספציפי  ולעמוד הבית במקביל) מבלי לקבל רשות מפורשת בכתב מהנהלת האתר

יכול לעניין..

rtf1959211051_2051924910

סדר 'בבלאגן' – ניהול ארכיון ומידע

 סדר "בבלאגן" – ניהול ארכיון ומידע  מאת: משה גבירץ *         ארגון ...

תגובה אחת

  1. כתבה מעניינת ונחמדה מי שירצה קצת דוגמאות מה פועל עושים בעזרת שיטות של כריית נתונים ומה היא כריית נתונים ובנוסף מי שירצה לקבל יעוץ מקצועי בנושא של למידת מכונה -(machine learning) ולמי שיש צורך ליישום של שיטות כריית נתונים בפועל מוזמן:
    http://www.datasmartanalytics.co.il

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *