תוכן הקורס ומטרתו
נק"ז: 2
שעות הרצאה: 2
דרישות קדם: ניתוח נתונים סטטיסטי, הנדסת מערכות מידע, מחסני נתונים
איסוף, עיבוד וניתוח נתונים במימדי ענק, מגמה המכונה בשם Big Data, היא ללא ספק הדלק שמניע שירותים וירטואליים רבים כגון: פייסבוק, גוגל, אמזון ונטפליקס. נתונים אלה מביאים איתם הבטחות רבות, לא רק ברמת המשתמש שעליו נאסף המידע (פרודוקטיביות, הנאה, קישור למשתמשים אחרים ועוד.), אלא גם לנחלת הכלל (בתחומי השיווק, הבריאות, התחבורה ועוד.). במקביל, יכולות העיבוד של מחשבים משתפרות תמידית ואפשרויות האחסון נהיות זולות יותר מיום ליום.
קורס זה סוקר טכנולוגיות עיקריות לאחסון, עיבוד וניתוח נתוני ענק. במהלך הקורס ייסקרו מערכות לניהול בסיסי נתונים המותאמות לעבודה עם נתוני ענק (Distributed RDBMS, NoSQL DBMS) תוך כדי התמקדות בתכונותיהן המאפשרות התאמה זאת. ייסקרו מערכת מבוזרת לאחסון קבצים (HDFS), כלים לעיבוד מקבילי (MapReduce, Spark) ומספר הרחבות המאפשרות הרצת SQL מעל נתוני עתק (Impala, Hive). ינותחו אלגוריתמי למידת מכונה המאפשרים מקבול (SVM, k-Means, kNN) ויתוארו מספר טכניקות לניתוח רשתות חברתיות (SNA - גרפים, תכונות של גרפים, חלוקה של גרפים ועוד).
הסילבוס המפורט מפורסם לתלמידי הקורס בלבד