Здравствуйте, уважаемые.
Вчера в программе реализовал возможность настраивать большой перерыв в ходе определения позиций по большому количеству фраз. После чего принялся подбирать оптимальную конфигурацию. А побаловаться есть с чем — паузы между запросами (ПМЗ), число запросов в серии (ЗС), пауза между сериями (ПМС ^__^ ) и количество позиций на страницу (КПС).
Сегодня на работе попробовал поэкспериментировать с проектом на 130 ключевых фраз, определение позиций проводилось в Яндексе. До этого момента мы сканировали с паузой между запросами в 10 секунд, глубина — 100, потоков — 3, КПС — 10. Если ставили 8 секунд — неминуемо нарывались на CACPHA
С утра попробовал новую схему
Глубина = 100
потоков = 3
ПМЗ = 5 секунд
ЗС = 100
ПМС = 60 секунд
КПС = 10
Процесс шел довольно хорошо ¾ пути, потом началась CAPTCHA. Параметры можно выкидывать в мусорку.
Вечером немного облегчил задачу, поставив ПМС в 150 секунд (2,5 минуты). Тест был пройден.
Теперь попробуем подсчитать выгоду от условно-тонкой настройки:
Если усреднить число страниц на определение позиции фразы, то выходит около 3 страниц.
130 запросов x 3 страницы = 390 запросов (округлим до 401 ^_^ )
Было: (401 — 1)запросов x 10секунд = 4000 секунд на определение позиций по всему проекту.
Стало: (401 — 1)запросов x 5секунд + (401 — 1)запросов/100 * 150 секунд = 2000 + 600 = 2600.
На выходе имеем 1 — (2600/4000) = 0.35 = 35 % ускорения процесса проверки позиций... Неплохой прирост, будем экспериментировать дальше.
Итак, привожу итоговые настройки:
Глубина = 100
потоков = 3
ПМЗ = 5 секунд
ЗС = 100
ПМС = 150 секунд
КПС = 10