Explore

Обработка больших данных

Approx. 42 hours to complete

Save Course

Go to Course

Course Summary

Learn how to process big data using Apache Spark, including data streaming, machine learning, and graph processing. This course covers the fundamentals of big data processing and how to use Spark to handle large datasets.

Key Learning Points

Understand the fundamentals of big data processing
Learn how to use Apache Spark to handle large datasets
Explore data streaming, machine learning, and graph processing with Spark

Learning Outcomes

Understand the principles of big data processing
Learn how to use Apache Spark to process large datasets
Gain experience with data streaming, machine learning, and graph processing

Prerequisites or good to have knowledge before taking this course

Basic programming knowledge in Python or Scala
Familiarity with SQL and Hadoop

Course Difficulty Level

Intermediate

Course Format

Online self-paced
Video lectures
Hands-on exercises

Similar Courses

Big Data Analytics with Apache Spark
Introduction to Big Data
Big Data and Hadoop

Related Education Paths

Notable People in This Field

Doug Cutting
Matei Zaharia

Related Books

Description

Ключ к успешному развитию любой компании в современном мире — это умение делать быстрые и правильные решения, основываясь на данных. С каждым годом этих данных становится всё больше, при этом старые методы анализа перестают адекватно работать на таких объемах.

В этом курсе мы разберем основные технологии и приемы, позволяющие эффективно хранить и обрабатывать огромные массивы информации. Мы также обсудим, откуда данные вообще возникают, как их собирать и какая инженерная подготовка требуется для безболезненной работы с этими технологиями.

Knowledge

Работать с наиболее распространенными источниками данных
Уверенно работать с командной строкой в Linux
Разрабатывать и запускать алгоритмы на платформах Hadoop и Spark

Outline

Базовые подходы к хранению и извлечению информации
Проморолик
Вводное занятие
Реляционные базы данных
Практическое занятие: SQL
NoSQL базы данных
Практическое занятие: MongoDB
Практическое занятие: MongoDB Aggregation
Выгрузка данных из интернета
Практическое занятие: Web Scraping
Презентация: Базовые подходы к хранению и извлечению информации
Реляционные базы данных
Документоориентированные базы данных
Веб-скрапинг
API

Bash для инженера данных
Введение
Bash basics
Добавление своих программ
Bash flow control
Bash flow control 2
Bash flow control 3
Bash pipelining
Построение условных пайплайнов
Полезные программы для bash
Команды cut и head
Команда sed
Команда awk
Команда jq
Команды tar и zip
Команды wget и curl
Практические задачи на bash
Практические задачи на bash 2
Презентация: Bash для инженера данных
Bash: Basics
Bash: Flow Control
Bash: Advanced Pipeline
Bash: Полезные программы
Практические задачи на bash

Начало работы с большим объемом данных: Hadoop, MapReduce
Hadoop
HDFS
Практическое занятие: HDFS
Практическое занятие: HDFS (устройство блоков)
Задача Word Count
Парадигма MapReduce
Пример реальной задачи
Практическое занятие: MapReduce
Практическое занятие: MapReduce (запуск на кластере)
Практическое занятие: MapReduce (ловим ошибки)
Презентация: Hadoop, MapReduce
Hadoop
HDFS

Знакомство со Spark
Основы Spark
Spark RDD
Практическое занятие: Spark
Практическое занятие: Spark (трансформации)
Практическое занятие: Spark (эмулируем MapReduce)
Практическое занятие: Spark (ловим ошибки)
Spark SQL
Практическое занятие: Spark SQL
Практическое занятие: Spark SQL (пишем запросы)
Практическое занятие: Spark SQL (задача WordCount)
Практическое занятие: Spark SQL (пользовательские функции)
Презентация: Знакомство со Spark
Spark

Продвинутое использование Spark
Модель "мешка слов"
Логистическая регрессия
Загрузка данных и создание словаря
Векторизация текстов
Присоединяем категории текстов
Проблема перекошенного ключа
Настраиваем логистическую регрессию
Презентация: Продвинутое использование Spark

Summary of User Reviews

Learn how to process big data with this course on Coursera. Users have praised the course's comprehensive and hands-on approach to big data processing, resulting in an overall positive rating.