Парсинг 6 млн. доменов - как найти среди них форумы?
Мой опыт парсинга форумов на Python и поисковиков. Парсинг 6 млн. сайтов, как добавил их в базу Mysql, как искал исполнителей, что пошло не так.
Рассказываю почему отказался от многопоточности.
Застрял на асинхронности.
Чтобы добавить в базу сразу несколько миллионов записей из файла (примерно 1-2 минуты), нужно использовать запрос LOAD DATA INFILE, подробно в документации , так добавить в промежуточную таблицу. Затем скопировать в нужную таблицу так:
INSERT INTO table_name (column_name) - тут в какую таблицу вставить
SELECT column_name FROM temporary_table - это промежуточная таблица, берём данные из неё.
Как загрузить данные в Mysql из CSV на Python - рабочий скрипт.
--
Проекты, которые сейчас развиваю
► - агентство по seo-продвижению ecommerce-проектов (интернет-магазины и каталоги)
► - сервис линкбилдинга (кра
1 view
1393
340
3 months ago 00:04:04 6
Легкий парсинг Ostrovok без кода, без установок, без настроек при помощи Webbee AI
3 months ago 00:14:20 1
Обучение парсингу на Python #6 | Как собрать информацию с любого сайта | Requests BS4 Selenium
3 months ago 00:47:17 9
Лекция 6. Современные методы парсинга открытых веб-ресурсов для Data Engineering — Есин М. С.
3 months ago 00:11:17 4
КАК УСТРОЕН ПРОЕКТ МАШИННОГО ОБУЧЕНИЯ, ЭТАПЫ ПРОЕКТА МАШИННОГО ОБУЧЕНИЕ, ПРОЕКТ МЛ
3 months ago 00:00:51 2
Парсинг сайтов PYTHON - #6 ЗАКЛЮЧЕНИЕ + БОНУС!
4 months ago 02:20:46 1
Deep Dive w/Scott: Starting work on CircuitMatter #adafruit
4 months ago 00:14:10 43
138 функций системы управления проектами за 14 минут — обучение YouGile
4 months ago 00:41:33 10
Секреты поиска ЦЕЛЕВОЙ АУДИТОРИИ в социальных сетях // Сервис TargetHunter
4 months ago 00:44:52 2
Прогноз трафика и гарантии SEO-агентства. Анализ и выполнение KPI на основе сезонности
4 months ago 00:17:04 1
Парсинг, рерайт, поиск фото, публикация в одном ИИ боте. Собираю бота для SMM в конструкторе ProTalk