Универсальный парсер интернет-магазинов

Обмен - Интеграция с WEB

7
С того времени, как я начал парсить сайты, прошло много лет. За это время я спарсил более 100 сайтов и записал эти товары в 1С. В итоге на свет появился универсальный парсер, который поможет Вам спарсить интернет-магазин и при этом не написать ни строчки кода.

"Ни строчки кода" - это конечно громко. Но в 80% случаев (когда интернет-магазин отвечает некоторым требованиям) - это будет работать.

Магазины, отвечающие этим требованиям: 

  1. В магазине должны быть категории товаров. Возможно подкатегории, но не обязательно.
  2. В категориях должен быть список товаров с ссылкой на карточку товара.
  3. В карточке товара должна быть вся интересующая Вас информация о товаре.

Такая структура у 90% сайтов. Так почему только 80%? - спросите Вы.

Есть еще некоторые технические моменты, например такие как формирование содержимого страницы через javascript и еще по мелочи. Но на практике я и такие сайты парсил... правда не универсальным парсером и это совсем другая история.

Что умеет Универсальный парсер"?

  1. Парсить  интернет-магазины и записывать эти данные в таблицы обработки (т.е. запись идет не сразу в 1С, а сначала мы видим результат работы в таблицах)
  2. Записывать данные о номенклатуре в 1С. После того как мы убедились в корректности данных - можем записать их в 1С:
    1. Группы и всю иерархию групп
    2. Наименование товара
    3. Цена
    4. Описание
    5. Описание для сайта
    6. Атрибуты (дополнительные реквизиты) с их значениями
    7. Картинки товара
  3. Использовать прокси-сервера. Можно задать списком и установить кол-во запросов на каждый сервер. Когда список серверов кончится - обработка опять проверит все сервера и обнулит счетчик запросов у работающих
  4. Задавать для каждого найденного узла произвольный обработчик.
  5. Сохранять/загружать настройки на любом этапе парсинга
  6. Делать тестовый парсинг (т.е. не весь сайт, а несколько товаров). Это очень полезно на этапе указания начальных настроек.
  7. Делать авторизацию на сайте перед загрузкой.

Универсальный парсер НЕ требует установки дополнительных компонент

Что не умеет или пока не умеет Универсальный парсер?

  1. Парсить характеристики
  2. Парсить несколько цен одного товара.
  3. Распознавать текст с картинок.
  4. Парсить yandex маркет. Тут не совсем правда. Но яндекс маркет надежно защищен от парсинга. Просто оставьте эту затею.

В списке файлов есть еще версия за startmoney. Давайте посмотрим чем они отличаются

Сравнение Универсального парсера.Lite и Универсального парсера

  Универсальный парсер.Lite Универсальный парсер
Парсить и записывать в 1С  + +
Формировать иерархию групп + +
Наименования товаров  + +
Цены  + +
Описания  + +
Делать тестовый парсинг сайта (загрузка только нескольких позиций) + +
Файл описания для сайта    +
Атрибуты товара    +
Картинки товара    +
Авторизация на сайте   +
Работа по протоколу HTTPS   +
Сохранять/загружать настройки и таблицы    +
Использовать прокси-сервера   +

Как он работает?

Для того, чтобы он начал работать - его нужно немного обучить. Для этого нужно воспользоваться селекторами.

У нас есть селекторы групп, товаров, всех вышеуказанных реквизитов товара и селекторы атрибутов.

Для того, чтобы указать селектор - достаточно открыть интересующий нас сайт в браузере Google Chrome, нажать F12 (инструменты разработчика), выбрать интересующий нас элемент и скопировать его селектор. Ниже будет видео как это сделать. При этом не обязательно, но совсем неплохо будет иметь базовые знания HTML.

При необходимости мы можем поменять обработчик узла, который был найден селектором. Это открывает для нас по-настоящему широкие возможности. Обработчик приходится менять не часто, но приходится и чтобы его правильно задать необходим базовый набор знаний в программировании 1С.

Если у Вас нет базовых знаний HTML и/или программирования 1С - советую обратить внимание на версию с начальными настройками. Вы просто скажите какой сайт Вам нужен, а я сделаю файл настроек. Вам останется только нажать несколько кнопок.

А как насчет нажатия всего одной кнопки "Записать в 1С"? Тоже возможно. Для этого будет версия обработки + настройки + заполненные таблицы. Это самый дорогой, но самый верный вариант получить результат. До 4000 товаров. Свыше 4000 - 1 р./товар

Для каких конфигураций подойдет парсер?

Обработка тестировалась на следующих конфигурациях:

  1. УТ 11.3
  2. УТ 11.4
  3. УТ для Белоруси 3.3
  4. КА 2.4
  5. ERP 2.4

Так же может подойти для конфигураций, которые имеют схожую структуру с вышеперечисленными конфигурациями. Как, например, УТ для Белоруси 3.3

Инструкции и обзор обработки

Как проверить, что интернет-магазин можно спарсить?

Тут только экспериментальный путь. Приобретайте обработку. Если парсер не будет парсить интересующий Вас сайт - есть возможность заказать настройки. А ели и настройки не подойдут - 100% гарантия возврата денег.

Можно ли парсить Яндекс Маркет?

Над ним работает целый отдел программистов. Яндекс маркет достаточно хорошо защищен от этого. Начиная с блокировок по IP, специфичной пагинации товаров и заканчивая наименованием категорий в виде картинок. Да и меняют алгоритмы они часто и оперативно. Я бы Вам рекомендовал поискать интернет-магазины на которых есть подавляющее большинство интересующих Вас товаров. Ведь в яндекс маркет товары попадают именно с этих сайтов.

Обсудить и пообщаться на тему универсального парсера можете в комментариях ниже

 

Гарантия возврата денег

ООО "Инфостарт" гарантирует Вам 100% возврат оплаты, если программа не соответствует заявленному функционалу из описания. Деньги можно вернуть в полном объеме, если вы заявите об этом течение 14-ти дней со дня поступления денег на наш счет.

Программа настолько проверена в работе, что мы с полной уверенностью можем дать такую гарантию. Мы хотим, чтобы все наши покупатели оставались довольны покупкой.

Для возврата оплаты просто свяжитесь с нами.

7


Новый вопрос

E-mail*
Тема (вопрос)*

См. также