Обработка больших данных

  • 0.0
Approx. 42 hours to complete

Course Summary

Learn how to process big data using Apache Spark, including data streaming, machine learning, and graph processing. This course covers the fundamentals of big data processing and how to use Spark to handle large datasets.

Key Learning Points

  • Understand the fundamentals of big data processing
  • Learn how to use Apache Spark to handle large datasets
  • Explore data streaming, machine learning, and graph processing with Spark

Related Topics for further study


Learning Outcomes

  • Understand the principles of big data processing
  • Learn how to use Apache Spark to process large datasets
  • Gain experience with data streaming, machine learning, and graph processing

Prerequisites or good to have knowledge before taking this course

  • Basic programming knowledge in Python or Scala
  • Familiarity with SQL and Hadoop

Course Difficulty Level

Intermediate

Course Format

  • Online self-paced
  • Video lectures
  • Hands-on exercises

Similar Courses

  • Big Data Analytics with Apache Spark
  • Introduction to Big Data
  • Big Data and Hadoop

Related Education Paths


Notable People in This Field

  • Doug Cutting
  • Matei Zaharia

Related Books

Description

Ключ к успешному развитию любой компании в современном мире — это умение делать быстрые и правильные решения, основываясь на данных. С каждым годом этих данных становится всё больше, при этом старые методы анализа перестают адекватно работать на таких объемах.

Knowledge

  • Работать с наиболее распространенными источниками данных
  • Уверенно работать с командной строкой в Linux
  • Разрабатывать и запускать алгоритмы на платформах Hadoop и Spark

Outline

  • Базовые подходы к хранению и извлечению информации
  • Проморолик
  • Вводное занятие
  • Реляционные базы данных
  • Практическое занятие: SQL
  • NoSQL базы данных
  • Практическое занятие: MongoDB
  • Практическое занятие: MongoDB Aggregation
  • Выгрузка данных из интернета
  • Практическое занятие: Web Scraping
  • Презентация: Базовые подходы к хранению и извлечению информации
  • Реляционные базы данных
  • Документоориентированные базы данных
  • Веб-скрапинг
  • API
  • Bash для инженера данных
  • Введение
  • Bash basics
  • Добавление своих программ
  • Bash flow control
  • Bash flow control 2
  • Bash flow control 3
  • Bash pipelining
  • Построение условных пайплайнов
  • Полезные программы для bash
  • Команды cut и head
  • Команда sed
  • Команда awk
  • Команда jq
  • Команды tar и zip
  • Команды wget и curl
  • Практические задачи на bash
  • Практические задачи на bash 2
  • Презентация: Bash для инженера данных
  • Bash: Basics
  • Bash: Flow Control
  • Bash: Advanced Pipeline
  • Bash: Полезные программы
  • Практические задачи на bash
  • Начало работы с большим объемом данных: Hadoop, MapReduce
  • Hadoop
  • HDFS
  • Практическое занятие: HDFS
  • Практическое занятие: HDFS (устройство блоков)
  • Задача Word Count
  • Парадигма MapReduce
  • Пример реальной задачи
  • Практическое занятие: MapReduce
  • Практическое занятие: MapReduce (запуск на кластере)
  • Практическое занятие: MapReduce (ловим ошибки)
  • Презентация: Hadoop, MapReduce
  • Hadoop
  • HDFS
  • Знакомство со Spark
  • Основы Spark
  • Spark RDD
  • Практическое занятие: Spark
  • Практическое занятие: Spark (трансформации)
  • Практическое занятие: Spark (эмулируем MapReduce)
  • Практическое занятие: Spark (ловим ошибки)
  • Spark SQL
  • Практическое занятие: Spark SQL
  • Практическое занятие: Spark SQL (пишем запросы)
  • Практическое занятие: Spark SQL (задача WordCount)
  • Практическое занятие: Spark SQL (пользовательские функции)
  • Презентация: Знакомство со Spark
  • Spark
  • Продвинутое использование Spark
  • Модель "мешка слов"
  • Логистическая регрессия
  • Загрузка данных и создание словаря
  • Векторизация текстов
  • Присоединяем категории текстов
  • Проблема перекошенного ключа
  • Настраиваем логистическую регрессию
  • Презентация: Продвинутое использование Spark

Summary of User Reviews

Learn how to process big data with this course on Coursera. Users have praised the course's comprehensive and hands-on approach to big data processing, resulting in an overall positive rating.

Key Aspect Users Liked About This Course

Users have praised the comprehensive and hands-on approach to big data processing.

Pros from User Reviews

  • Covers a wide range of big data processing techniques
  • Provides hands-on experience and exercises
  • Instructors are knowledgeable and engaging

Cons from User Reviews

  • Some users found the course to be too technical
  • The course may be challenging for beginners
  • Some users found the course to be too time-consuming
Russian
Available now
Approx. 42 hours to complete
Космачев Алексей Дмитриевич, Бардуков Анатолий Андреевич, Зимовнов Андрей Вадимович
National Research University Higher School of Economics
Coursera
Share
Saved Course list
Cancel
Get Course Update
Computer Courses