Все характеристики всех конкурсов фрилансеров. Видео 4
#python #regularexpression
PlayList
0:00 В этом видео: новый код для сбора промо-характеристик всех конкурсов и код из прошлых видео плейлиста, применяемый не к одному конкурсу. а ко всем.
1:15 Обзор скрипта: выяснить число страниц списка конкурсов, выгрузить с этих страниц промо-характеристики и их URL-адреса, записать в новый датафрейм собранным из предыдущих скриптов кодом пройтись по этим URL-адресам и выгрузить содержательные характеристики конкурсов и репутационные характеристики заказчиков.
2:30 Пакеты datetime, time и traceback.
3:25 Приостановка исполнения скрипта — для маскировки алгоритмического запроса под запрос обычного пользователя.
4:15 Вспомогательные чанки для подачи запроса к первой странице списка конкурсов и выгрузки с неё промо-характеристик конкурсов и их URL-адресов.
4:45 Условие для будущего цикла while: есть ли тег ’div’, attrs={’id’:’projects-list’ на странице?
5:20 По тегу ’div’, attrs={’id’:’projects-list’} выводится не только фрагмент HTML-кода, релевантный одному конкурсу, но и релевантные всем конкурсам под этим конкурсом.
6:40 Поэтому распаривание не методами пакета bs4, а методом split.
8:15 Цикл for для прохода по блокам, каждый из которых содержит информацию об одном конкурсе. Конструкция try except и пакет traceback для обработки блоков без информации.
12:00 Итоговый чанк: цикл while для выгрузки промо-характеристик конкурсов и их URL-адресов со всех страниц с их списками. В цикле “вечное“ условие его работы, уравновешенное командой break.
14:55 Супер-итоговый чанк (код из видео № 1-3) для выгрузки содержательных характеристик конкурсов и репутационных характеристик их заказчиков — со всех URL-адресов.
15:25 “Засыпание“ алгоритма.
16:05 Изменения относительно скрипта из видео №2: добавлена характеристика “закрыт ли заказ“ и характеристика “число комментариев“ считается по-новому.
18:10 В отличие от традиционных инструментов сбора информации веб-скрапинг позволяет дособирать информацию при необходимости.
18:55 %%time для вывода длительности работы чанка.
19:30 Привязка названия файла с результирующим датафреймом к дате его создания облегчает в дальнейшем агрегирование в один файл таких файлов после разных замеров.
Предыдущее видео:
1 view
4320
1381
3 days ago 00:01:40 1
🤘 Подарок для девушки 14 лет 👌 Оригинальный подарок любимой девушке на день рождения
3 days ago 00:13:06 1
Dreame Z30: САМЫЙ МОЩНЫЙ беспроводной пылесос на рынке🔥 Ещё и УМНЫЙ✔️ ОБЗОР и ТЕСТ✅
3 days ago 00:01:45 1
Отзыв на поставку УЗИ аппарата Mindray DC-45 и компанию MEDLIGA