Обработка данных с использованием Spark RDD, Spark SQL и Spark GraphFrames.
В видео я объясняю код к решению лабораторной работы по методам анализа больших объёмов данных. По заданию необходимо найти пользователя из РФ, чаще остальных упоминающего фамилии российских политических деятелей. Решение этого задания представлено в двух вариантах - на RDD и Spark SQL. Также нашёл наибольшую компоненту связности социального графа (группу пользователей, которые общаются преимущественно друг с другом) для иностранных/российских/московских пользователей с помощью Spark GraphFrames.
Ссылка на исходный код будет добавлена позже.
Ссылка на датасет:
0:00 Предварительные настройки
6:06 Spark SQL
8:48 Spark RDD
12:25 Spark GraphFrames
Предупреждение! Код в части Spark GraphFrames на моменте инициализации объекта GraphFrame при запуске на Google Colab выдаёт ошибку, на других платформах при правильной установке graphframes всё работает без ошибок.