Описание программы:
- На данный момент программа работает с 9-ю поисковыми системами. В их числе: Google.ru, Yandex.ru, Rambler.ru, Mail.ru, Google.com, Google.com.ua,Google.lv, Yahoo.com, Live.com.
- 2 алгоритма поиска позиций.
- 4 языка (английский, русский, латышский, украинский)
- Есть возможность использовать proxy (может быть полезно для людей со статическим IP)
- Обход капчи.
- Возможность импорта проектов из semonitor и Site-Auditor.
- Определение самых релевантных и количества страниц на сайте по заданым ключевым словам (фразам).
- Проверка данных по сайту Google Pr, Yandex тИЦ, Число страниц в индексе Google, Число страниц в индекске Yandex, В каталоге Yandex.
Программа абсолютно бесплатная(!) и постоянно развивается, появляются новые возможности, повышается качество работы.
Системные требования
Операционная система: семейства Windows
Разрешение экрана: от 1024x768
Дисковое пространство: от 25 мегабайт
Оперативная память: от 256 мегабайт
Программное обеспечение: Internet Explorer выше версии 5.5
Программа требует Java Runtime Environment не ниже версии 1.6.0. Скачать можно на сайте java
Краткая инструкция в семи пунктах
Руководство пользователя
Основным предназначением программы SESpider является определение позиций сайта.
Внешний вид главного окна на вкладке модуля «проверка позиций» приведен на рисунке ниже.

Сайты и ключевые фразы группируются по проектам.
Колонки «ключевые слова» и «Сайты» содержат фразы и сайты, которые сформированы в рамках выбранного проекта.
Колонка «Поисковики» для всех проектов остается неизменной.
Имеется возможность устанавливать глубину поиска. Число указывается в позициях (не страницах!!!)
Настройка количества одновременных потоков может быть полезна всем пользователям. Во-первых, для пользователей с низкоскоростным интернетом имеет смысл вести анализ в 1–2 потока. Во-вторых, для пользователей с нормальным интернетом количество потоков можно настроить по числу планируемых анализируемых поисков.
Более того, с помощью количества потоков можно настроить число одновременно сканируемых фраз в поисовиках. Если взять за N число поисковиков в анализе и K — число одновременно сканируемых ключевых фраз, формула будет следующая: N*K (4 поисковика, 3 одновременно сканируемых фразы в поисковике = 12).
"Плоский поиск"/"волновой поиск"
Плоский поиск — элементарный и в то же время наиболее надежный поиск с первой страницы к последней.
Волновой поиск — поиск с учетом позиции предыдущего анализа. Если сайт был найден на странице N, то поиск будет обходить страницы в следующем порядке: N N-1 N+1 N-2 N+2 N-k N+k. Таким образом будет найдена самая близкая к предыдущей позиция. Поиск полезен в случае, если в поисковике не было серьезных подвижек в выдаче (не было апа), но необходимо подтвердить актуальность позиций, собранных во время прошлого анализа.
Флажок "игнорировать недостачу" влияет на поведение сканера в случае, если на странице выдачи было собрано позиций меньше, чем ожидалось для поисковика. Если флажок снят, то при первой недостаче (поисковик выдает по 10 позиций, а программа смогла собрать только 8–9) поисковик прекращает анализировать фразу и переходит к следующей фразе. Это полезно для полной уверенности, что все позиции были собраны правильно, а также оперативно сообщить разработчику об обнаруженной ошибке.
Для того, чтобы приступить непосредственно к сбору позиций из списка ключевых слов нужно выбрать те, которые должны участвовать в проверке. Аналогично выбираем сайты и поисковики. Для всех списков работает горячая клавиша Ctrl+A, а также выделение регионов с помощью клавиши Shift. Нажимаем кнопку «Пуск».
Появляется окно Анализа позиций.

Каждая ячейка фраза/поисковик имеет свой индикатор прогресса. Вы видите на какой странице поисковика идет анализ.
Разбираем частные случаи:
- Ячейка «программа определения позиций/yandex.ru» хранит текст «14+1 (14)». Первое число [14] — это позиция, полученная в текущем сеансе;второе число, отмеченное курсивом, [+1] — изменение позиции по сравнению с позицией прошлого сеанса анализа, третье число в скобках [(14)] — это лучшая позиция за всю историю анализа этой фразы по конкретному поисковику (в данном случае, по Яндексу). Цвет текста ячейки красный из-за того, что текущая позиция является самой высокой за всю историю анализа.
- Ячейка «SESpider/yandex.ru» хранит текст «1 (1)», смысл тот же, за исключением того, что позиция не изменилась по сравнению с позицией предыдущегосеанса и поэтому в ячейке отсутствует число, отмеченное курсивом.
- Ячейка «программа для определения позиций сайта/yandex.ru», несмотря на повышение позиции, имеет серый цвет из-за того, что текущая позиция не являетсясамой высокой за всю историю анализа.
- Ячейка «программа по определению позиций/google.ru» хранит текст «0/6» и полностью белый фон. Первая цифра — это число страниц, которые ужепроанализированы. Вторая цифра — сколько страниц в поисковике планируется просканировать. Полностью белый фон говорит о том, что эта пара (фраза/поисковик) еще не начала процесс сканирования.
- Ячейка «программа по определению позиций/yandex.ru» хранит текст «3/6» и частично закрашенный фон. Сканер поисковика обрабатывает фразу и проработал уже3 страницы.
- Ячейка «определение позиций/yandex.ru» хранит текст «6/6» и полностью закрашенный фон. Это говорит о том, что сканер поисковика завершил проверку этойпозиции и в пределах 6 страниц искомый сайт не был найден.
Существует еще несколько индикаторов в ячейках, которые не были представлены на рисунке:
- Индикатор «Сбой соединения» появляется в случаях, когда поисковик является недоступен или в случае постоянного сброса соединения
- Индикатор «Возможно captcha» появляется в случаях, когда сканер собрал со страницы поисковика 0 позиций
- Ячейка с текстом «3/6» с полностью закрашенным фоном говорит о том, что со страницы поисковика было снято меньше позиций, чем ожидалось или быллостигнут конец поисковой выдачи (что крайне редко)
Последний пункт в программе выглядит, как показано на рисунке ниже

Видно, что по фразе «MP3-плееры» уже на первой странице поисковика обнаружена проблема сканирования. Остальные ячейки с закрашенным фоном тоже являются примером ошибочной работы программы.
Пользователей, получивших подобную картину, прошу сообщать на специально отведенную для этого страницу
Процесс добавления ключевых фраз
В программе имеется две возможности пакетного добавления ключевых фраз: с помощью текстового поля и с помощью загрузки из файла.
В текстовое поле можно вносить несколько ключевых фраз по одной на строку, как это показано на рисунке ниже

Файл для добавления фраз формируется по тому же принципу — по одной фразе на строку.
Процесс добавления сайтов
Сайты так же можно добавлять двумя способами: диалогового окна и пакетное добавление сайтов с помощью загрузки из файла.
Диалоговое окно добавления сайта изображено на рисунке ниже

Имя сайта — это текстовая информация, которая используется для взаимодействия с пользователем: отображается в списке сайтов, в списке анализа позиций, в excel отчетах и т.д.
Адрес — это адрес сайта в сети Интернет. Он может заноситься как с префиксом «http://», так и с префиксом «www». Также, если вы хотите проанализировать позиции по сайту, включая его поддомены вам необходимо в начало строки сайта поставить точку, например «.site.ru»
Проверить доступность — проверяется доступность сайта, отвечает ли сервер на запросы. Это возможность проверить правильно ли введён адрес сайта.
Загрузить favicon — при установленном флажке будет скачана иконка сайта, которая отображается рядом с адресной строкой во всех современных браузерах. При установленном флажке «Загрузить favicon» автоматически идёт проверка доступности сайта.
Пакетное добавление сайта.
Файл должен иметь по одному сайту на строку. Пример:
sespider.ru
liveinternet.ru
mozilla.org
Настройки поисковика
В программе имеется возможность гибко настраивать поисковик для снятия позиций в производственных масштабах.

Здесь стоит дать пару определений:
- Запрос — обращение к странице выдачи поисковика
- Серия запросов — определённое количество подряд идущих запросов
Id поисковика — внутрипрограммный текстовый идентификатор поисковика, используется для возможности устанавливать дополнительные конфигурируемые поисковики с другими идентификаторами.
Название — имя поисковика, которое пользователь видит в окнах программы и в отчетах Excel.
Паузы между запросами — для того, чтобы поисковик не испугался натиска с вашего IP между запросами необходимо делать паузы. В этом поле имеется возможность задать массив значений пауз, значения которых по очереди будут использоваться для задержек.
Запросов в серии и Пауза между сериями — поисковики начинают выдавать даже если между запросами ставится небольшая задержка. Если задержка будет большая, то для солидного количества поисковиков и нескольких проектов, полученные данные могут стать просто неактуальными. Искусственно создаётся большая пауза (1–3 минуты) для того, чтобы «остудить память» поисковика. С помощью двух параметров можно задать число запросов в серии, после которых будет задержка, указанная во параметре «Пауза между сериями».
Позиций на страницу — поисковики предоставляют возможность настраивать число позиций, которые пользователь видит в выдаче. Увеличив число позиций в программе, можно сэкономить время и сетевой трафик. А также это позволяет уменьшить число обращений к поисковику.
** Но, к сожалению, при настройках 50 позиций на страницу Яндекс начинает выдавать CAPTCHA крайне скоро. Настройка для Google 100 позиций на страницу заметно ускоряет анализ позиций.
Дополнительные параметры — поле для ввода параметров, которые могут участвовать в адресной строке запроса к поисковику (пример yandex.ru/search?q=sespider&p=0&rstr=-187)
А также в дополнительных параметрах участвуют служебные переменные SESpider (пример geo, xml в Yandex), они не передаются поисковику при запросе.
Работа с Yandex.XML
Помимо добавленного в список поисковиков Yandex.XML, у сканера Yandex.ru появилась возможность указывать в дополнительных параметрах настройку использовать Yandex.XML (xml=1). Для чего это нужно подробней описано в другой записи
Работа с отсутствующими поисковиками
Часто мастерам нужно искать в поисковиках, не включенных в список поисковиков в программе. Конфигурируемые сканеры как раз решают эту проблему.
Для того, чтобы внести новый сканер поисковика необходимо выполнить следующие инструкции:
Файл инсталяции подкладываем в корень программы.
install.xml
<seinstall> <item> <name>TUT.by</name> <id-name>tut.by</id-name> <class-name>ru.vingrad.platon.sespider.ConfigurableSpider2</class-name> <requests-per-period>1</requests-per-period> <period>4000</period> </item> </seinstall>
Файл настройки поисковика conf_spiders2/tut.by.cfg
conf_spiders2 — это папка!!!
query=http://search.tut.by/?status=1&encoding=1&page={POSITION}&how=rlv&query={QUERY}
regexp=<li>\\s*<h3>\\s*<a href="{SITE}">.*?</a>\\s*<a href=".+?" target="_blank">{TITLE}</a>.*?</h3>{DESCRIPTION}<br>
items-per-page=15
query.encoding=windows-1251
query.units=PAGE
content.encoding=windows-1251
По порядку:
query — строка запроса, как она написана в браузере. В ней есть 2 настраиваемых переменных:
{POSITION} — позиция (страница или абсолютная позиция) с которой начинается выдача
{QUERY} — фраза-запрос поисковику
regexp — регулярное выражение, которое подходит одной позиции выдачи.
Переменные:
{SITE} — ссылка на страницу сайта.
{TITLE} — заголовок страницы сайта.
{DESCRIPTION} — наиболее релевантная часть страницы сайта.
items-per-page — количество позиций на странице (по умолчанию 10)
query.encoding — кодировка, в которой отправляется запрос. (для русскоязычных чаще всего windows-1251)
query.units — Единицы, в которых измеряется переменная {POSITION} в строке запроса query. Bvttn 2 значения: PAGE и ABSOLUTE.
Пример:
google.ru просит работать в терминах аболютных значений (ABSOLUTE), т.е. первая страница — 0, вторая — 10, третья — 20 и т.д...
rambler.ru просит работать в терминах страничных (PAGE). т.е. первая страница = 0, вторая = 1, третья 2 и т.д...
content.encoding — кодировка текста страницы. Поле крайне необязательное, если сервер шлет в заголовках кодировку сайта, что чаще всего бывает. но вот tut.by предлагает работать с meta тегами, эти случаи надо вбивать эту переменную.
Обратите внимание на регэксп!!! Символы экранирования также экранируются!!! Специфика Java Properties файлов.