Схема розділу
-
-
В цьому розділі будуть зазначені терміни виконання кожного виду робіт:
06.09.2024 Практична №1. Дослідження джерел відкритих даних. завантаження датасету та збереження даних в форматі csv
11.09.2024 Практична №2. Аналіз та візуалізація даних у Python13.09.2024 - Лекція 1.18.09.2024, 25.09.2024 Практична №3. Кореляційний аналіз у Python27.09.2024 - Лекція 2, лекція 302.09.2024 - Тест Модульний контроль №1
09.10.2024 - Практична №4. Побудова лінійної регресії в Python11.10.2024 - Лекція 416.10.2024 - Практична №5. Аналіз та візуалізація даних в R
23.10.2024 - Практична №6. Розподілені обчислення даних з використанням Spark-кластера та мови R25.10.2024 - Лекція 530.10.2024 - Тест Модульний контроль №206.11.2024 - Лекція 608.11.2024 - Залік
-
-
Борисовська Юлія Олександрівна
epfk.borysovska@gmail.comZoom:
Идентификатор конференции: 522 952 8738
Код доступа: 1284725-
Базовий підручник
Зінченко О.В., Іщеряков С.М., Прокопов С.В., Сєрих С.О., Василенко В.В. Хмарні технології. Навчальний посібник
-
Рекомендована література (основна та додаткова) та електроні ресурси
-
В цьому розділі представлено лекційний та презентаційни матеріал
-
-
-
ПРО ЦЕЙ КУРС
Будь-яке вивчення науки про дані починається з розуміння чим є насправді дані. Математична статистика та найбільш сучасна і популярна мова програмування R - це базовий інструментарій, яким повинен володіти будь-хто в галузі науки про дані. Даний курс присвячений основам отримання результатів, які ґрунтуються на статистичному виведенні. В якості практичної складової використовується мова R.
Це є базовий курс для майбутніх аналітиків. Завдяки отриманим знанням вони зможуть проводити первинний статистичний аналіз даних, висувати гіпотези та оцінювати їх на основі зібраних даних. Також мовою програмування обрана мова R, яка є найбільш вживаною мовою для статистиків на сьогодні.
-
-
!! 02.09.2024 - 06.10.2024
-
Мета роботи: дослідити джерела відкритих даних за допомогою Open Government Partnership та вебсайтів, які надають відкриті дані, можливості збереження та візуалізації даних, використовуючи вебсайти www.knoema.com та www.gapminder.org, дослідити право власності на персональні дані, коли ці дані не зберігаються локально та обмеження електронних таблиць при завантаженні даних.
-
Мета роботи: продемонструвати свої знання про життєвий цикл аналізу даних, використовуючи заданий набір даних та вказані інструменти Python.
-
Мета роботи: продемонструвати практичні навички кореляційного аналізу даних, використовуючи заданий набір даних та вказані інструменти Python.
-
-
-
Мета роботи: ознайомитись з поняттями лінійної регресії та роботи з даними для прогнозування в Python, проаналізувати запропоновані дані про продажі та побудувати лінійну регресію для прогнозування річного чистого обсягу продажів
-
Мета роботи: ознайомитись з можливостями мови програмування R для аналізу та візуалізації даних, використати бібліотеку R dplyr для очищення та трансформації даних та бібліотеку ggplot2 для візуалізації даних.
-
Мета роботи: встановити Spark на локальній машині, виконати розподілені обчислення для набору даних з використанням Spark-кластера у середовищі R.
-
-
-
!! Здати завдання потрібно до 30.10.2024
-
-
-
Архітектурні моделі інженерії Big Data. Центри обробки даних та хмарні обчислення. Технології віртуалізації. Шари абстракції. Гіпервізори. Контейнерна технологія виконання програмного коду на сервері. Інжиніринг даних.
-
Масштабованість за допомогою великих даних. Зберігання та оброблення даних в розподілених файлових системах. Розподілені бази даних. Розподілена файлова система Hadoop (HDFS).
-
Проблема прийому даних. Розподілена потокова платформа Kafka. Переваги Cassandra.
-
Проблема обчислювальної функції. Технологія Spark. Порівняння Spark та MapReduce. Spark і sparklyr для роботи з великими даними в R.
-
Lambda - архітектура. Переваги і недоліки Lambda -архітектури. Kappa - архітектура. Переваги і недоліки Kappa-архітектури.
-