שיטות למידה עמוקה עבור ניתוח שפה וקטעי קול – אוניברסיטת אריאל
שיטות למידה עמוקה עבור ניתוח שפה וקטעי קול
שם הקורס (אנגלית): Deep Learning Methods for NLP & Speech Analysis
שם הפקולטה: מדעי הטבע
שם המחלקה: מדעי המחשב
מספר הקורס: 2-7063410-1
מתכונת הקורס: הרצאה + סדנה
שנת לימודים: ג'/מתקדמים
סמסטר: ב
היקף שעות: 4
נקודות זכות: 4
אתר הקורס באינטרנט: אין
א. מטרות הקורס (מטרות על / מטרות ספציפיות)
הקניית כלים פרקטיים וישומיים והכשרה ליציאה לתעשייה עבור עיסוק בתחום ה-Deep Learning לטובת מימוש פתרונות עיבוד שפה טבעית (Natural Language Processing) וניתוח קולי (Speech Analysis).
ב. תוכן הקורס
הכרות ופתרון בעיות קיימות ב-Domains שונים בתחומי הניתוח טקסט וקול, לרבות זיהוי ישויות בטקסט (Named Entity Recognition), מנועי זיהוי דיבור (Speech Recognition), סיווג טקסטים וקטעי שמע.
ג. מהלך השיעורים
- הרצאות פרונטליות לאורך הסמסטר, כאשר הרצאה ראשונה מיועדת לבחירת פרויקטים, ושתי ההרצאות אחרונות פרונטליות לטובת הצגת פרויקטי גמר. הנוכחות בקורס הינה בגדר חובה.
- חובות / דרישות / מטלות: פרויקט גמר מתגלגל.
- בכל המפגשים לאורך הסמסטר נדון בפרויקטים השונים של כל קבוצת סטודנטים, ובהתמודדויות הנלוות מהפרויקט גמר.
- כל קבוצה תהיה בת 2-3 סטודנטים, למעט מקרים חריגים באישור המרצה.
ה. מנהלות
- סטודנט שלא יהיה נוכח בשתי ההרצאות הראשונות, או באחת משתי ההרצאות האחרונות (פרזנטציה של פרויקטי הגמר) – יקבל ציון נכשל בקורס.
- ביתר המפגשים, סטודנט שלא יהיה נוכח יותר מ-3 מפגשים, יקבל ציון נכשל בקורס.
- מרכיבי הציון הסופי (ציון מספרי / ציון עובר):
70% פרויקט גמר, 30% הצגה פרונטלית קבוצתית ופרטנית.
שימו לב כי ישנה חובת ציון מעבר של 60 הן עבור פרויקט הגמר, והן עבור ההצגה הפרונטלית!
ד. תכנית הוראה מפורטת לכל השיעורים
| תאריך | נושא השיעור | הערות |
|---|---|---|
| 1.3 | הרצאה ראשונה Speech & Word Embeddings, Language Models (BERT) Spectrograms, D-Vectors, X-Vectors |
מבוא לבעיות בעולמות ה-Speech analysis ו-NLP חלוקה לקבוצות ובחירת פרויקטי גמר |
| 8.3 | הרצאה שנייה | הצגת ארכיטקטורת פתרון לפרויקטי הגמר של כל קבוצה |
| 15.3 – 24.5 | עבודה על פרויקטי גמר בכיתת הקורס | |
| 31.5 | פרזנטציה של פרויקטי גמר | הציון יינתן באופן פרטני לכל סטודנט\ית |
| 7.6 | פרזנטציה של פרויקטי גמר | הצגת הפרויקט של כל קבוצה, ובחינה פרטנית של כל סטודנט\ית הציון יינתן באופן פרטני לכל סטודנט\ית |
ה. חובות הקורס
- ביצוע פרויקט גמר מתגלגל לאורך הסמסטר בקבוצות של 2-3 סטודנטים (תלוי היקף פרויקט), ממומש ב-Python מעל תשתית PyTorch.
באופן חריג, וכתלות בפרויקטים, תיתכן קבוצה עם מספר שונה של סטודנטים. - הצגה של פרויקטי הגמר בקבוצות ובפרטני, בשתי ההרצאות האחרונות.
-
- כל סטודנט ייבחן הן על החלקים שלו בפרויקט, והן על החלקים של חבריו לצוות.
- ההצגה תהיה מקצועית בעיקרה, ובה ייבחן הידע התאורטי של המודלים השונים אשר בהם ייעשה שימוש בפרויקטי הגמר.
ו. דרישות קדם
- תלמידי שנה ג' ומעלה מתואר ראשון ותארים מתקדמים בעלי רקע ב-Deep Learning
(לרבות הקורס בנושא שיטות ניתוח שפה ולמידה עמוקה של ד"ר עמוס עזריה מאוניברסיטת אריאל)
ז. ביבליוגרפיה
Frameworks:
- https://pytorch.org/
- https://pytorch.org/tutorials/
- https://colab.research.google.com/notebooks/intro.ipynb#recent=true
Papers:
- https://arxiv.org/abs/1810.04805
- https://towardsdatascience.com/named-entity-recognition-ner-with-bert-in-spark-nlp-874df20d1d77?gi=68cf447476ce
- https://www.isca-speech.org/archive/Odyssey_2020/pdfs/75.pdf
Pre-trained models and Python code:
- https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/
- https://github.com/BUTSpeechFIT/VBx
- https://github.com/facebookresearch/wav2letter
- https://huggingface.co/transformers/model_doc/wav2vec2.html
- https://huggingface.co/transformers/pretrained_models.html