נתוני עתק עיבוד בענן – אוניברסיטת אריאל
המחלקה למדעי המחשב
שם הקורס: נתוני עתק עיבוד בענן
שם הקורס באנגלית: Big Data & Cloud Ecosystems
שנה וסמסטר: תש"פ, סמסטר ב'
היקף: 3 ש"ס
סוג הקורס: בחירה
דרישות קדם: מערכות הפעלה 2
שעות קבלה: פרטים במערכת Moodlearn
מטרות/יעדי הקורס:
- הכרת מושגים, אתגרים וטכנולוגיות לטיפול בנתוני עתק.
- שילוב תשתיות מחשוב ענן בארכיטקטורת מערכות מבוססות שירותים.
- עיצוב ופיתוח מערכות Big Data Analytics.
תיאור הקורס:
עד תחילת שנות האלפיים, מרבית האינפורמציה והנתונים בשימוש האנושות תועדו וטופלו באמצעים אנלוגיים כגון נייר, סרטי צילום וסרטים מגנטיים.
התפתחויות טכנולוגיות והוזלת המדיות הדיגיטליות הביאו לכך כי הרוב המכריע של הנתונים כיום מאוחסן באופן דיגיטלי,
ונוספים לו בכל יום מעל 2.5 הקסאבייטים (2.5 מיליארד ג'יגה בייטים) באמצעות אימיילים, שאילתות, סרטוני יוטיוב,
ציוצים לטוויטר, קבצי לוגים, חיישנים, סלולרים ומקורות רבים אחרים.
חישובים מעלים כי 90% מהנתונים בעולם כיום נוצרו בשנתיים האחרונות בלבד,
וקצב יצירת וצבירת נתונים חדשים רק עולה במתווה אקספוננציאלי – נתונים אלו מכונים נתוני עתק (Big Data).
קצב צבירת הנתונים מציב אתגרים רבים, שהמרכזי בהם הוא כיצד ניתן להשתמש בנתונים אלו ולהפיק מהם,
באופן יעיל, ידע ותובנות, באסטרטגיות וקצבי עיבוד הממקסמים את התועלת מצבירתם הבלתי נגמרת.
בקורס זה נלמד כיצד לגשת למשימת אחסון ועיבוד נתוני עתק – לצד המתווה המושגי והתיאורטי נלמד כיצד להגדיר ארכיטקטורה לפתרון,
להתקין תשתיות ולהתממשק לשירותי ענן בפועל.
לקורס שלושה פרקים מרכזיים:
- הכרת המושגים הרלוונטיים לטיפול בנתונים, מידע וידע, סקירת מודלים לארגון מסדי נתונים והשוואת תכונותיהם
(Relational vs. NoSQL), ניתוח אתגרים בטיפול בנתוני Big Data, סקירת טכנולוגיות Hadoop Ecosystem לעיבוד נתוני עתק,
תבניות ואסטרטגיות לאחסון נתוני עתק וביזור העיבוד. - מחשוב ענן ופיתוח מבוסס שירותי ענן, ספקים מרכזיים וצריכת שירותי אחסון, מסרים, עיבוד ואנליטיקה מן המוכן
באמצעות טכנולוגיות Web ותשתיות Node.js, מימוש ויזואליזציית נתונים ושילוב תבניות ארכיטקטוניות
לעיצוב מערכת מבוזרת המטפלת בנתוני עתק בסביבת ענן. - עיצוב ופיתוח מערכת אנליטיקות לנתוני עתק הכוללת רכיבים תיאורטיים וחיזויים,
בשילוב אלגוריתמים ומשימות למידת מכונה באמצעות Python ותבניות ארכיטקטוניות מקובלות.
שיטת ההוראה:
הקורס משלב הוראה פרונטלית, הדגמות והתנסות מעשית.
במהלך הקורס יפתחו הסטודנטים, באופן מדורג ובמסגרת תרגילי הבית,
מערכת לאחסון נתונים, ניתוח מידע והצגת תוצריו באמצעים גרפיים.
את התרגילים ופרויקט מסכם יש לבצע בזוגות.
תנאים לעמידה בדרישות הקורס:
חובות הסטודנטים ושקלול הציונים (באחוזים):
- נוכחות 80% – 0% (מהווה תנאי להשלמת הקורס)
- פרויקט מסכם – 50% (מימוש מערכת אנליטיקת נתונים והצגתה)
- מבחן – 50% (מבחן אמריקאי למושגים)
תוכנית הקורס:
- מושגי יסוד באחסון, ניהול וניתוח נתונים.
- Relational Databases & NoSQL DB’s – תזכורת.
- סטנדרטים בסביבת Web לתקשורת וארגון שירותים (HTTP, WebSockets, ES6).
- התקנה, ניהול סביבות והרצת שירותים לוקאלית באמצעות Docker.
- מושגים, אתגרים וסוגיות בתחום Big Data.
- עיצוב וארגון Data Lake.
- תבניות ארכיטקטוניות לעיצוב מערכות Big Data Analytics.
- סקירת טכנולוגיות מרכזיות: Hadoop, HDFS, MapReduce, Spark, Kafka, Pig, Hive.
- Microservices, Serverless לעומת Containers, Node.js בענן.
- ספקי ענן ושירותי אחסון, ניתוח וויזואליזציית נתונים.
- מידול ואחסון נתונים ב-NoSQL: Redis, Neo4j, MongoDB, HBase, Elastic Search.
- למידת מכונה: סוגים, משימות, אלגוריתמים ותהליכי גילוי ידע.
- Python ו-Orange3 לאנליזת נתונים.
- פיתוח מערכות בתחומי אבטחה, בריאות ועיר חכמה בשילוב שירותי ענן.
רשימת קריאה ומקורות חובה:
- חומרי הקורס יחולקו ו/או יפורסמו באתר הקורס ב-Moodle.
- Hadoop Succinctly, Elton Stoneman (2016).
- Machine Learning Using C# Succinctly, James McCaffrey (2014).
- JavaScript Succinctly, Cody Lindley (2014).
רשימת קריאה ומקורות נוספים:
- Machine Learning, Thomas Mitchell.
- Data Mining: Practical Machine Learning Tools and Techniques, Ian H. Witten.
- Deep Learning, Ian Goodfellow.
- Mining of Massive Data Sets.
- Hadoop: The Definitive Guide.
- Node.js Succinctly.
- HBase Succinctly.
- Spark Succinctly.
- R Succinctly.
- Neural Networks Using C# Succinctly.
- HDInsight Succinctly.