סמינר ניהול ידע: גילוי ידע באמצעות כריית נתונים – האוניברסיטה הפתוחה

OU_KM_15s_TLV_slb_v1.doc

האוניברסיטה הפתוחה
המחלקה לניהול וכלכלה
תכנית מוסמך במנהל עסקים

13802 – סמינר ניהול ידע: גילוי ידע באמצעות כריית נתונים

סמסטר קיץ – קמפוס רמת-אביב

דרישות קדם: סיום כל קורסי ההשלמה והחובה בתכנית המוסמך.
היקף: 3 נקודות זכות
מענה טלפוני: ימי שני 19:00-20:00
מרכז/ת תקשוב: אין
הסמינר כולל שישה מפגשים – תאריכי המפגשים מפורטים בעמוד הבא.

מטרת הסמינר

The basic economic resource is no longer capital, nor natural resources, nor
labor. It is and will be knowledge (Peter Drucker)

הסמינר מציג את הטכנולוגיות והסוגיות העיקריות הקשורות לתחום של יצירה וניהול ידע
(KM – Management Knowledge(. נעסוק בהבחנה בין נתונים, מידע וידע; ונדון בשאלה כיצד
מושגים אלה מקבלים ביטוי בארגון המודרני. בנוסף, נסקור שיטות וטכניקות שונות הממירות נתונים
למידע ולידע. נתמקד במיוחד בתהליכי כריית נתונים לצורך הפקת תובנות עסקיות, תוך שימוש
.Eureqa ,Weka ,SPSS כגון בתוכנות

"מערכות מדף", כגון ERP, CRM, אינן תחליף לידע. השתלבותן המהירה של "מערכות המדף"
בארגונים יוצרת מצב של "ביטול עצמי" תוך שהארגונים מעתיקים או רוכשים טכנולוגיה אחידה.
ידע, לעומת זאת, הוא היתרון התחרותי האמיתי של העסק הנוכחי והעתידי.

אנחנו ננסה להראות כי ניהול ידע אינו ביטוי חדש למושגים המוכרים כמו מערכות מידע, מערכות
תומכות החלטה או מערכות לניהול נתונים, אלא מיקוד חדש אשר יוצג הלכה למעשה בסמינר. נקודת
המוצא שלנו היא שהנתונים של אתמול הם המידע של היום, ומידע זה יהיה הידע של מחר. תהליך
זה חוזר חלילה ומתקדם בשרשרת הערך כאשר לאורך הזמן הידע יחזור להיות מידע והמידע ישוב
להיות הנתונים.

היבט מרכזי ואקדמי בסמינר הוא כריית נתונים לשם הפקת ידע ותובנות עסקיות. מבלי להבין
ולהתנסות במושגים אלו, תחום "ניהול ידע" עלול לאבד את משמעותו ולהפוך לעוד Buzzword.

תכנית המפגשים – ימי שלישי 17:30-20:30

מפגש תאריך נושא
1 14.7.15 נתונים, מידע, ידע, תבונה
מודל הידע של Takeuchi & Nonaka
מערכות סקירת :BI ,Data Warehouse ,OLAP ,OLTP
2 21.7.15 ייצוג נתונים: רציף, אורדינאלי, נומינאלי, עמום, בינארי, מרופד
כריית נתונים: עצי החלטה, רשת נוירונים, רגרסיה, ניתוח אשכולות
הערכה מדדי :RMSE ,Kappa ,Precision, Recall, F-Score, ROC
3
שבוע 4
4.8.15
כיתת מחשבים
דיון במטלה 1 – אפיון תחום ידע
בניית מדדים מורכבים
עבודה עם Weka:
– פורמט arff, csv, בדיקת תלות בין משתנים, הגדרת Test-Training
– אלגוריתמים בהינתן שדה מטרה נומינלי, ובהינתן שדה מטרה מספרי
– השפעת ייצוג ונירמול הנתונים, על התוצאה
– ניתוח אשכולות בהינתן ובהיעדר שדה מטרה
4
שבוע 5
11.8.15
כיתת מחשבים
עבודה עם Weka:
– הצגת שיוך הפרטים למחלקות הסיווג השונות
– בניית Matrix Confusion לבעיות עם שדה מטרה מספרי
– הצגת עץ מקורב
בדיקת רגישות המודל לרעש (בניית הרעש באמצעות Excel(
5
שבוע 7
25.8.15 ייעוץ והכוונה בגיבוש המודל – מרחב המשתנים ואופן ייצוגם
ייעוץ והכוונה בניתוח הנתונים – בחינת התוצאות
– ניתוח חלופות לשיפור התוצאות
6
שבוע 8
1.9.15 מטלה 2 – הצגת המחקר ותוצרים ראשוניים

דרישות והרכב הציון:

1 א נוכחות בכל המפגשים *
1 ב הצגה ממוקדת ועניינית של שתי המטלות (מצגת בליווי בתדפיס)
10%

2 א
מטלה 1 – אפיון בעיית ידע בעולם תוכן ספציפי, על פי בחירת הסטודנטים
– המטלה תבוצע ביחידים, ותוצג במסגרת המפגש השלישי
– פורמט הצגת המטלה מפורט בקובץ נפרד

2 ב
מטלה 2 – כריית נתונים וגילוי ידע – חקירת הבעיה בטכניקות של כריית נתונים,
וביצוע ניתוח רגישות למודל המתקבל.
– המטלה ניתנת לביצוע בזוגות. תוצרים ראשוניים יוצגו במפגש האחרון
– פורמט הצגת המטלה מפורט בקובץ נפרד

2 ג
עבודה מסכמת
– לאחר השלמת תהליכי הכרייה והניתוח, ירוכזו הדברים במסמך מסכם.
– העבודה תוגש כתדפיס בליווי CD עם קבצי הנתונים, המצגות והמסמך.
90%

* יש חובת נוכחות בכל מפגשי הסמינר. אי עמידה בדרישת הנוכחות תהווה כישלון בקורס.
בכל בעיה בנושא יש לפנות לראש התוכנית דרך המזכירות במייל: il.ac.openu@seminar_mba

הציון הסופי (לאור המטלות והעבודה המסכמת) מוגדר באופן הבא:
60% – הגדרה, אפיון וחקר ספרות של בעיית הידע – כפי שכל משתתף ניתח באופן עצמאי.
25% – שיטת המחקר וניתוח הנתונים – משותף לשני המגישים.
15% – דיון תיאורטי במשמעויות הנובעות מניתוח הנתונים – משותף לשני המגישים.

במידה ומטלה 2 מבוצעת בזוגות, המסמך המסכם יציג בחוצץ נפרד את הבעיה שנחקרה בלא ניתוח
נתונים.

ערוצי תקשורת ומידע

בכתובת נמצא הקורס אתר
http://telem.openu.ac.il/courses/2015/b13802/

  • Mail-E – להודעות כלליות ולליבון שאלות ספציפיות של הסטודנטים.
  • לוח הודעות – בדף הבית של הקורס ישמש כגיבוי להודעות המייל הכלליות.
  • פורום הקורס – מיועד לחילופי מסרים בין משתתפי הקורס.
  • אתר הספרייה הוירטואלית של האוניברסיטה הפתוחה – http://www.openu.ac.il/Library

הנחיות לקראת המטלות וההנחיה האישית

המטלות יוכנו בהתייחס לארגון אליו יש גישה ושניתן לקבל ממנו מידע ושיתוף פעולה. המטלות
דורשות היכרות ואיסוף נתונים, ניתוח הנתונים, הצגת הממצאים, הסקת מסקנות וניסוח המלצות.
הגישה תהיה של צוות ייעוץ, המדווח להנהלה ומציע המלצות לקידום הנושא.

– מטלה 1 – תבוצע על ידי כל סטודנט בנפרד – לצורך תרגול והבנת מושג הידע
המטלה תוצג במפגש השלישי, בליווי מצגת שתכיל חמישה שקפים
כדי לאפשר התייחסות, יש לשלוח את המצגת במייל עד ערב קודם ליום המפגש.

– מטלה 2 – ניתנת לביצוע בזוגות
המטלה תוצג במפגש האחרון, בליווי מצגת שתכיל עד עשרה שקפים (לא כולל השקפים ממטלה 1).
כדי לאפשר התייחסות, יש לשלוח את המצגת במייל עד ערב קודם ליום המפגש.

– יש לצרף את המצגות לעבודה הסופית – כל מצגת תצורף כתדפיס בפורמט של שני שקפים בעמוד.

– הנחיה אישית

להנחיה האישית יש להגיע עם הבנה טובה של עולם התוכן, והיכרות עם ספרות ומחקרים אודות
כריית נתונים בתחום התוכן הנידון.
ההנחיה תתמקד בהיבטים הבאים:

  • הגדרת המודל, המשתנים, ואופן ייצוגם
  • דרכים לבחינת המודל (אלגוריתמים ופרמטרים)
  • בחינת התוצאות
  • ניתוח חלופות לשיפור התוצאות

סט הנתונים לבדיקת המודל – השאיפה היא שמספר הרשומות יהיה פי 30 ממספר המשתנים
במודל. כלומר אם במודל יש לדוגמה 10 עמודות, אזי מומלץ שיהיו לפחות 300 רשומות.
הרשומות צריכות להכיל מקרים מכל מגוון המצבים האפשריים. לדוגמה, אם נניח ששדה המטרה
הוא דו מצבי: "בריא /חולה", אזי חשוב שסט הנתונים יכיל גם רשומות המתייחסות למצב "בריא"
וגם רשומות המתייחסות למצב "חולה".

פורמט הגשת הנוסח הסופי של העבודה המסכמת

– היקף המסמך המסכם עד 20 עמודים, מודפסים ברווח של שורה וחצי, גופן דוד ,12 שוליים 2.5 ס"מ
מכל צד (לא כולל שער, רשימת מקורות ונספחים).
* במידה והניתוח המעשי יבוצע בזוג, היקף המסמך יהיה עד 28 עמודים, והוא יערך בשלושה
חוצצים: (1) נושא עיוני חבר צוות I,) 2 (נושא עיוני חבר צוות II,) 3 (ניתוח מעשי משותף.

– ניתן להוסיף נספחים ככל שרואים לנכון. אך הנספחים אינם מיועדים להציג תובנות נוספות; אלא
רק לפרט, במידת הצורך, מגוון אפשרי של "תוצרי ביניים", כגון פלטים של הניתוחים שבוצעו,
סימולציות וכד'.

– מראי מקום יש לרשום על פי שיטת APA) מצ"ב פירוט).
– מספור עמודים, מספור איורים, מספור טבלאות.
– מועד הגשה – חודש ממועד סיום הקורס
– יש לשלוח עותק מודפס, בדואר רגיל, לכתובת: רועי גלברד, הכנסת הגדולה ,16 תל-אביב, .62917
– במקביל יש לשלוח במייל (או לצרף CD לעותק המודפס): נוסח סופי של העבודה, קבצי הנתונים,
המצגות, והמקורות.

* ביצוע החלק המעשי בזוגות מחייב שכל אחד מחברי הצוות יוכל להשלים את המטלה בכוחות עצמו
ולהגישה במועד, גם אם תתעורר בעיה כלשהי לאחד מחברי הצוות.

מבנה העבודה הסופית (הפרקים וסדרם)

1. שאלת הידע-המחקר

הגדרת השאלה הנידונה בעבודה, מטרתה, וחשיבותה.

2. מיפוי: נתונים-מידע-ידע

מיפוי מרכיבי שאלת המחקר על פי השריג הבא:

# מאפיין / תהליך בעולם האנושי-ארגוני במערכת הממוכנת

1 נתונים
2 מידע
3 ידע
4 הפיכת נתונים למידע וידע
5 הפיכת מידע וידע לנתונים
6 הפיכת ידע סמוי לגלוי
7 הפיכת ידע גלוי לסמוי
8 ידע כתובנה לתמיכה בהחלטות
9 ידע כתובנה התורמת חידוש ולחדשנות
10 למידה, חלוקה ושיתוף בידע

3. סקר ספרות

3.1 סקירת ספרות אודות עולם התוכן הנידון. גורמים משפיעים ומודלים מקובלים.
3.2 סקירת ספרות אודות כריית נתונים בעולם התוכן הנידון.
3.3 הגדרת טווח הערכים הרצוי במדדים לאורם תיבחן שאלת המחקר.

לצורך איתור מקורות ממומלץ להשתמש במאגרי המידע שבספריה, וכן במנועי החיפוש הבאים.
ביצוע החיפוש תוך שימוש ב-IP של הספריה יאפשר גם הורדה של המאמרים.

  1. ISI Web of Knowledge – http://apps.webofknowledge.com/
  2. Science Direct – http://www.sciencedirect.com/
  3. Ieee Explore – http://ieeexplore.ieee.org/Xplore/guesthome.jsp
  4. AIS Electronic Library – http://aisel.aisnet.org/
  5. SSRN – http://www.ssrn.com/
  6. Google Scholar – http://scholar.google.co.il/
  7. CiteseerX – http://citeseerx.ist.psu.edu/

4. שיטת המחקר

4.1 פירוט המשתנים
4.2 תיאור הנתונים, מקורם, ושימושים קודמים (אם שימשו במחקרים אחרים)
4.3 פירוט המניפולציות שהופעלו בייצוג הנתונים (סינון, נירמול, קטגוריזציה, וכד')
4.4 מדדי ההערכה ופונקצית ההפסד (Function Loss(.
4.5 האלגוריתמים והערכים שהוזנו בפרמטרים השונים שלהם.
4.6 שיטת "הרעשת" הנתונים לצורך בדיקת רגישות-יציבות המודל.

5. תוצאות

5.1 הצגה של התוצאות שהתקבלו בהרצות השונות בטבלה מרכזת.
כל שורה בטבלה תייצג הרצה אחת ותציין את הפרטים הבאים:

  • סט הנתונים ואופן ייצוגם
  • האלגוריתם וערכי הפרמטרים שהוזנו בו
  • פונקצית ההפסד ומדדי ההערכה שהתקבלו (RMSE, Score-F, וכד')

5.2 בדיקת יציבות המודל ("הרעשת המודל")

0
20
40
60
80
100
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
סטיית התקן בהתפלגות הנורמלית
F-Score

6. דיון בתוצאות

6.1 מודל הידע שהתקבל
6.2 חידוש המודל ביחס לידוע בספרות – דיון במשמעויות העולות מהתוצאות. משמעות הדברים בהקשר של יצירת הידע שניסינו להשיג. משמעות הממצאים.
6.3 שימושים אפשריים במודל הידע שהתקבל – ההשלכות התיאורטיות והפרקטיות של
6.4 מגבלות העבודה – מה ציפינו לקבל, מה קיבלנו בפועל, סיבות אפשריות בגללן לא נתקבלו התוצאות המצופות, מגבלות המחקר כפי שבוצע, מה ניתן לעשות כדי לנסות וקבל תוצאות טובות יותר.

7. רשימת מקורות

בפורמט APA – כמפורט להלן.
ניתן להיעזר ב- Refwork לצורך ניהול פורמט המקורות.

8. נספחים

במידת הצורך ניתן לצרף נספחים. הנספחים אינם מיועדים להציג תובנות נוספות; אלא רק לפרט,
במידת הצורך, מגוון "תוצרי ביניים", כגון פלטים של הניתוחים שבוצעו (סימולציות וכד').

ביבליוגרפיה:

כריית נתונים – Textbooks:

  1. Pang-Ning Tan, Michael Steinbach & Vipin Kumar (2006). "Introduction to Data Mining", Pearson.
  2. Jiawei Han, Micheline Kamber & Jian Pei (2012). "Data Mining: Concepts and Techniques" 3rd Edition, Morgan Kaufmann.
  3. Witten I.H., Frank E., "Data Mining: Practical Machine Learning Tools and Techniques", 2nd Edition, Morgan Kaufmann, 2005. = WEKA

Knowledge – ספרים:

  1. Nonaka I. and Takeuchi H., (1995), "The Knowledge Creating Company", Oxford University Press, New York.
  2. Polanyi M., (1962), "Personal Knowledge", University of Chicago Press.

Knowledge – מאמרים:

  1. Alavi M. and Leidner D., (2001), “Knowledge Management and Knowledge Management Systems: Conceptual Foundations and Research Issues”, MIS Quarterly, Vol.25(1), 107-136.
  2. Jackson J., (2002), "Data Mining: A Conceptual Overview", Communications of the AIS, Vol.8, 267-296.
  3. King W.R., Marks P.V., and McCoy S., (2002), "The Most Important Issues in Knowledge Management", Communications of the ACM, Vol.45(9), 93-97.
  4. Spiegler I., (2000), “Knowledge Management: A New Idea or a Recycled Concept ?”, Communications of the AIS, Vol.3,.
  5. Spiegler I., (2003), "Technology and Knowledge: Bridging a 'Generating' Gap", Information & Management, Vol.40(6), 533-539.
  6. Tuomi I., (1999), “Data is More Than Knowledge: Implications of the Reversed Knowledge Hierarchy for Knowledge Management and Organizational Memory”, Journal of Management Information Systems, Vol.16(3), 103-117.
  7. Vail E.F., (1999), “Knowledge Mapping: Getting Started with Knowledge Management”, Information Systems Management, Vol.16(1), 16-23.

עצי החלטה, ניתוח אשכולות, ומערכות המלצה:

  1. ACM Conference On Recommender Systems, Lausanne, Switzerland, October 23-25, 2008
    http://portal.acm.org/toc.cfm?id=1454008&type=proceeding&coll=GUIDE&dl=GUIDE&CFID=19282164&CFTOKEN=36019957
  2. Estivill-castro v. and yang j., (2004), "Fast and Robust General Purpose Clustering Algorithms", Data Mining and Knowledge Discovery, Vol.8, 127-150.
  3. Jain A.K., Murty M.N. and Flynn P.J., (1999), "Data clustering: a review", ACM Computing Surveys, Vol.31(3), 264-323.
  4. Rokach L., Maimon O., "Data Mining With Decision Trees: Theory And Applications", World Scientific Publishing Company, 2008.
  5. Tjen S. Lim, Wei Y. Loh, Yu S. Shih, (2000), "A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms", Machine Learning, Vol.40(3), 203-228.

קישורים למאגרי נתונים – Datasets:

  1. http://www.hakank.org/weka/
  2. http://www.kdnuggets.com/datasets/
  3. http://www.sigkdd.org/kddcup/index.php
  4. http://lib.stat.cmu.edu/DASL/
  5. http://archive.ics.uci.edu/ml/
  6. http://www.freebase.com/ (semantic, social database)
  7. http://www.cbs.gov.il/reader – הלשכה המרכזית לסטטיסטיקה
  8. il.gov.data://http אתר מאגרי המידע הממשלתי
  9. /http://data.worldbank.org – הבנק העולמי
  10. מאמר המציג היסטוריה של משברים עולמיים (ההשפעה על תיירות)
    Hall M.C. (2010). "Crisis events in tourism: subjects of crisis in tourism". Current Issues in Tourism, 13(5), 401-417.

כללי APA לרישום מקורות

To understand the examples below, use the following color key:

  • Author(s)
  • Date
  • Book Title
  • Article Title
  • Periodical Title
  • Volume (and Issue)
  • Page Numbers
  • Place of Publication
  • Publisher
  • Other

For more information about APA style, visit the APA's Web site.

Journal or Magazine Article

For journals that start each issue with page number 1, use the following:

Solomon, M.D. (2005). Ensuring a successful data warehouse initiative. Information
Systems Management, 22(1), </B< font>26-35.

For journals that continue page numbering from issue to issue, use the following:

Gately, S. (2004). Aligning ERP and business processes. Information Technology in
Practice, 16, </B< font> 286-305.

Newspaper Article

Goldstein A. & Babington C. (2005, October 27). Mier's autonomy will be at issue. The
Washington Post, p. A1.

Book

Keyes, J. (2005). Implementing the IT balanced scorecard. Boca Raton, FL: Auerbach
Publications.

Book Article or Chapter

Luftman, J. (2003). Assessing IT-business alignment. In C.V. Brown & H. Topi (Eds.),
IS management handbook (pp. 7-20). Boca Raton, FL: Auerbach Publications.

Encyclopedia Article

Walsh, K.L. (2003). Active matrix liquid crystal displays (LCDs). In The encyclopedia
of optical engineering (Vol. 1, 26-38). New York: Marcel Dekker.

Website

Couturiaux, S. (2005). Using the people capability maturity model with CMMI.
Retrieved October 28, 2005, from News at SEI Web site:
http://www.sei.cmu.edu/publications/ news-at-sei/features/2005/3/feature￾1-2005-3.htm

Article from an Internet Database

Ross, David F. (2005, Winter). E-CRM from a supply chain management perspective.
Information Systems Management, 22, 37. Retrieved October 28, 2005, from
Auerbach's IT KnowledgeBASE database.