Обработка данных с использованием Spark RDD, Spark SQL и Spark GraphFrames.

В видео я объясняю код к решению лабораторной работы по методам анализа больших объёмов данных. По заданию необходимо найти пользователя из РФ, чаще остальных упоминающего фамилии российских политических деятелей. Решение этого задания представлено в двух вариантах - на RDD и Spark SQL. Также нашёл наибольшую компоненту связности социального графа (группу пользователей, которые общаются преимущественно друг с другом) для иностранных/российских/московских пользователей с помощью Spark GraphFrames. Ссылка на исходный код будет добавлена позже. Ссылка на датасет: 0:00 Предварительные настройки 6:06 Spark SQL 8:48 Spark RDD 12:25 Spark GraphFrames Предупреждение! Код в части Spark GraphFrames на моменте инициализации объекта GraphFrame при запуске на Google Colab выдаёт ошибку, на других платформах при правильной установке graphframes всё работает без ошибок.

1 view

535

213