Machine Learning Lab

אתר הקורס ללמידת מכונה. כאן ניתן למצוא מצגות לפי נושאים, הנחיות לפרויקט ומאגרי נתונים מומלצים לפרויקטים.

הנחיות לפרויקט

שער ונושא המחקר

שם תלמיד/ה + ת״ז, שם המחקר, שנת לימודים, שם המורה, הקדמה קצרה ותמונה הקשורה למאגר או לפרויקט.

תיאור הנתונים

תיאור קצר של מאגר הנתונים, מקור הנתונים, קישור למאגר, סוגי הנתונים במאגר והעמודות שיכולות לשמש כתכונות וכמטרה.

חקר נתונים

טעינת נתונים, info, describe, לפחות 2 פקודות groupby, לפחות 5 גרפים שונים והצגת קורלציה עם heatmap.

עיבוד ולמידת מכונה

ניקוי נתונים, איזון תגיות, נרמול, הנדסת מאפיינים, חלוקה ל-Train/Test, אימון לפחות שני אלגוריתמים ובחינת ביצועים.

הסבר מפורט על הפרויקט

שער ונושא המחקר

  • שם תלמיד/ה + ת״ז
  • שם המחקר
  • שנת לימודים
  • שם המורה
  • הקדמה - תיאור קצר של מטרת המחקר ושל מה הסיווג
  • תמונה הקשורה למאגר הנתונים או לפרויקט

תיאור הנתונים

  • תיאור קצר של מאגר הנתונים
  • מקור הנתונים: מאיפה נלקח, מי הכין, טווח זמנים, גרסאות ותאריך עדכון אחרון
  • קישור למאגר הנתונים
  • כמה רשומות, כמה עמודות, אילו סוגי נתונים ומה משמעות כל עמודה
  • אילו עמודות יכולות לשמש כתכונות לסיווג וכמטרה

חקר נתונים

  • טעינת נתונים והצגה של נתונים מהמאגר
  • הצגת info על המאגר: סוגים, רשומות מלאות, כמות מכל סיווג ונתונים חסרים
  • שימוש ב-describe: ממוצעים, סטיות תקן, מינימום, חציונים ומקסימום
  • לפחות 2 פקודות groupby ולרשום מסקנה לכל פקודה
  • לפחות 5 סוגי גרפים שונים, כותרות, הסברים, מסקנות והשערות מכל גרף
  • הצגת קורלציה עם heatmap בין המאפיינים לשאלת המחקר

עיבוד נתונים וטיוב

  • זיהוי ערכים חסרים - השלמה או הסרה בהתאם
  • זיהוי חריגים וטיפול (רשות)
  • זיהוי כפילויות וטיפול
  • איזון תגיות במקרי קיצון
  • נרמול הנתונים
  • הנדסת מאפיינים - הוספת והורדת משתנים
  • הפיכת משתנים קטגוריאליים למספריים, כולל One Hot Encoding

למידת מכונה וביצועים

  • בחירת עמודות לקלט והסבר מדוע נבחרו או הוסרו
  • חלוקת הנתונים לקבוצת אימון וקבוצת בדיקה
  • אימון וחיזוי באמצעות לפחות שני אלגוריתמים שלמדנו
  • מטריצת בלבול, Accuracy, Precision, Recall, F1 וממוצעים
  • ניתוח ומסקנות
  • חקר השפעת שינוי היפר-פרמטרים על הביצועים ב-KNN וב-SVC
  • הצגת השינויים במדד ביצוע כללי כמו Accuracy או F1

סיכום, כללי הגשה וקריטריונים

  • סיכום ומסקנות לגבי הנתונים, ההשערות והביצועים
  • רפלקציה אישית - מה למדתי, אתגרים, נושאים מעניינים והעמקה עצמית
  • יש להקפיד על כותרות בתאי טקסט בכל הסעיפים הרלוונטיים
  • יש לתעד את כל הקודים עם הערות
  • יש להגיש קובץ Colab מסודר עם הסברים ותשובות מילוליות
  • חובה לוודא שהכל קריא ושהשילוב של עברית ואנגלית תקין
  • מספר דוגמאות: 500 ויותר, לפחות 2 משתנים רציפים ו-2 בדידים
  • במקרה של סיווג: לפחות שתי מחלקות ופיזור יחסית אחיד בין קבוצות

מצגות לפי נושאים

Python for DS

מבוא לעבודה עם Python במדעי הנתונים.

פתח מצגת

Visualization

גרפים והצגת נתונים.

פתח מצגת

Data Preparation

ניקוי והכנת נתונים לפני מודלים.

פתח מצגת

KNN

היכרות עם אלגוריתם השכנים הקרובים.

פתח מצגת

KNN with Sklearn

שימוש בספריית sklearn.

פתח מצגת

Perceptron & SVM

מסווגים לינאריים.

פתח מצגת

מאגרי נתונים

Kaggle

מאגר גדול של datasets לפרויקטים.

כניסה

Google Dataset Search

מנוע חיפוש למציאת datasets.

כניסה

Data.gov

מאגר נתונים של הממשל.

כניסה