Скопировать товары с чужого сайта

В данной статье мы разберем, как парсить сайты с помощью «Netpeak Spider» (десктопной программы для парсинга) на примере интернет-магазина. Он позволяет собрать практически любые данные в автоматизированном режиме.

Довольно часто «Netpeak Spider» используют для сбора информации о товарах с интернет-магазинов с возможностью выгрузки в Excel таблицу. Это необходимо для того, чтобы в дальнейшем импортировать эти данные на свой сайт.

Парсинг товаров с сайта интернет магазина в таблицу

Если Вы обладатель сайта агрегирующего/продающего товары по тематике, к примеру, «Оборудование для общепита», и в Вашем интернет-магазине представлена эта категория, то парсер товаров с сайта поставщика в таблицу Вам может определенно пригодиться.

Связано это с тем, что далеко не все поставщики могут дать Вам выгрузку товаров в формате excel. Либо она обладает излишними данными, которые предполагают большой объем работы: картинки, вставленные непосредственно в таблицу, много ненужной информации, макросы и т.д. Проще взять нужную Вам информацию с исходного сайта, выбрав в автоматизированном режиме именно те данные, которые нужны Вам. Потом можно выгрузить их в эксель или csv таблицу, чтобы в дальнейшем импортировать с помощью «WP All Import» на WordPress сайт или какой-то другой. К слову, не обязательно работать с интернет-магазинами, поскольку «Netpeak Spider» позволяет добывать любую информацию с любых сайтов.

Популярный сервис

SEO аудит сайта

Netpeak Spider(Нетпик спайдер)

Оценка 5.00 из 5

Вы с таким же успехом можете парсить текстовую информацию, к примеру: новости, аналитику, картинки, агрегировать статистику и эту информацию импортировать в WordPress с помощью «WP AllImport». Либо можно применять дополнительные фильтры и продолжать работать с полученной информацией в табличном виде.

Так же можно пускать ее в дальнейшее производство. Например, спарсить e-mail по списку сайтов и в дальнейшем пустить их в систему е-mail рассылок. Либо на основе этих e-mail создать аудиторию для ретаргетинга в рекламной компании (Вконтакте или через Яндекс аудитории).

Если Вам интересно узнать более подробно о том, как импортировать товары или данные из уже полученной таблицы, то Вы можете посмотреть вот это видео. Там я подробно рассказываю, как это сделать на примере сайта на WordPress и плагина «WP All Import».

Netpeak Spider — посмотреть все возможности

Вам нужно спарсить товары или какие-то данные, возникли вопросы? Закажите персональную скайп/вайбер/вотсап консультацию – 30 мин – 999 руб. Я отвечу на ваши вопросы, подскажу как лучше настроить парсинг, импорт, обновление цен и товаров.

Не хотите разбираться в нюансах – вам нужен готовый результат. Закажите парсинг товаров или любых данных – парсинг 1 сайта за 4999. Нужно спарсить и импортировать товары на сайт, настроить обновление цен или синхронизацию каталога с сайтом поставщика по расписанию – закажите готовое решение за 9999. Напишите мне через форму контакта детали своего проекта и мы обсудим как я могу вам помочь.

Настройки парсинга данных «Netpeak Spider»

Если мы хотим собрать информацию по всем товарам, которые есть в каталоге интернет-магазина, то нам необходимо заполнить следующие поля:

  • Название товара;
  • Цена;
  • Описание;
  • Картинка.

Для этого нам необходимо проделать следующие действия:

  1. Открываем «Netpeak Spider»;
  2. Заходим в «Настройки» — «Настройки парсинга»;
  3. Ставим отметку «Использовать парсинг HTML данных;
  4. Извлекать необходимые данные можно несколькими путями — XPath, CSS-селектор и регулярные выражения;
  5. Можно просто находить какую-то необходимую информацию и считать, сколько раз она встречается без сохранения в таблицу;

Более подробно почитать про каждый из вариантов извлечения данных Вы можете ниже

Всего в программе 4 вида поиска:

  • Содержит → считает количество вхождений искомой фразы на странице. Работает в формате «только поиск», то есть не извлекает никаких данных. Самый простой вид поиска: представьте, что Вы, просматривая исходный код страницы, просто нажимаете Ctrl+F и вводите необходимую фразу – программа делает это автоматически на всех страницах и показывает, сколько значений она нашла.
  • RegExp → извлекает все значения, соответствующие заданному регулярному выражению. Работает в формате «поиск и извлечение». Следующий по сложности вид поиска: позволяет больше кастомизировать процесс, значительно расширяя возможности поиска, однако требует базовых знаний регулярных выражений. Читайте .
  • CSS-селектор → извлекает все значения необходимых HTML-элементов на основе их CSS-селекторов. Работает также в формате «поиск и извлечение». Достаточно простой и, в то же время, мощный способ извлечения данных: например, необходимо указать всего лишь одну букву «a», чтобы вытянуть все ссылки со страницы. Читайте (на английском языке).
  • XPath → извлекает все значения необходимых HTML-элементов на основе их XPath. Работает также в формате «поиск и извлечение». Самый мощный способ выборки данных, однако, требует определённых знаний и опыта. Читайте .

Копирование необходимых элементов через xPath

Для того чтобы скопировать необходимые элементы через xPath, открываем наш сайт и карточку товара, где содержится информация. Чтобы проще идентифицировать элементы, нам понадобится консоль вебмастера:

  • В Chrome она вызывается клавишей F12.
  • После этого нажимаем на иконку выделения со стрелкой.
  • Выделяем необходимые элементы — название товара в данном случае.
  • Консоль подсвечивается, и мы нажимаем правой кнопкой мыши для выбора опцию «копировать в xPath».

После того данные в xParth скопированы, можно переходить в настройки парсинга. В том поле, мы будем парсить название, необходимо выдрать опцию xPath. Туда же ставим скопированный xPath из консоли вебмастера.

После этого можно проделать те же самые шаги для «Описания». Если Вы хотите скопировать не весь текст, то можно выделить только определенную его часть. Но так как в данном примере нас интересует полностью описание, то я выбираю тег, который содержит «Описание» и «Особенности».

Получить 14 дней бесплатного пользования в подарок

Особенности парсинга картинок с помощью CSS-селектора

Спарсить картинку xPath нам не поможет. Связано это с тем, что если мы выделим ее таким же образом и попробуем скопировать xPath, то он будет уникальный для конкретного товара. То есть он будет содержать id конкретной картинки, и когда парсер «Netpeak Spider» будет переходить по карточкам других товаров, то там этот id будет меняться, и мы никакую информацию не скопируем.

Поэтому в данном случае, чтобы скопировать url картинки, мы воспользуемся таким методом извлечение данных, как CSS-селектор. Чтобы Вам проще было работать с CSS-селекторами, я рекомендую установить расширение для Chrome оно называется «ChroPath». После установки он будет находиться в правом верхнем углу экрана.

Нас интересует значение src для тега image, так как в нем содержится url нашей картинки. Так как у этого тега img нет какого-то определенного класса, то мы можем посмотреть, что является его родителем.

Мы видим, что этот тег img находится внутри div с id «ShowCardImage». Соответственно, в настройках CSS-селектора мы можем указать, чтобы он нашел на странице элемент с id «ShowCardImage», а потом нашел внутри него img и скопировал значение атрибута src.

С помощью расширения ChroPath открываем вкладку в консоли вебмастера. Здесь можно выбрать, какой тип селектора мы хотим использовать.

Я указываю в ChroPath: id «#ShowCardImage», и потом говорю, какой элемент меня интересует, т.е. img.

После этого я нажимаю «Enter» и он мне выдает информацию согласно CSS-селектору: подсвечивает картинку, которую нашел, а так же фрагмент кода, который соответствует данному CSS-селектору.

Я сразу могу протестировать, правильно ли работает мой CSS-селектор. Здесь, в настройках программы «Netpeak Spider», мне нужно указать, что меня интересует значение атрибута src. Переходим в настройки, в поле «Картинка» и выбираем опцию извлечения данных «CSS-селектор». Далее нужно поставить правило, чтобы найти элемент с id «ShowCardImage» и внутри него найти картинку (тег img), а потом из него извлечь значение атрибута src.

Ограничение области парсинга

Далее, чтобы не парсить лишних данных и не собирать ненужную информацию необходимо ограничить область поиска парсера. Нас не будут интересовать страницы «О компании», «Статьи», «Контакты», «Блог», «Акции» и те разделы сайта, где не содержится информация о товарах. Мы хотим спарсить только каталог, взять информацию о товарах, а все остальные страницы просто игнорировать.

Для этого в «Netpeak Spider» можно задать правила:

  1. Заходим в «Настройки» — «Правила», нажимаем «Добавить правила»;
  2. Ставим «Включить» в таблицу только те url, которые содержат папку /goods/.
  3. Если мы перейдем на какие-то другие страницы сайта, то увидим, что они сгруппированы по категориям.
  4. Если мы посмотрим по всем страницам каталога товаров, то увидим, что они все идут через категорию /goods/. То есть в адресе сайта у нас содержится папка /goods/, и все товары содержатся в ней.

Создание групп правил в «Netpeak Spider»

При необходимости мы можем создавать группы правил и выстраивать логику работы между ними.

  1. Логическое условие «или». Например, если я хочу парсить информацию только из разделов каталога или статей, то я могу добавить второе правило включать в исходный отчет только раздел /goods/ и /articles/ и поставить между ними логическое условие «или». То есть если страница содержит, либо другое, то нужно добавлять ее в отчет.
  2. Логическое условие «и». Правило «и» применяется, когда url должен удовлетворять всем правилам, и таким образом фильтровать и экономить ресурсы парсера.

После того как мы задали условия парсинга и правила обхода сайта – сохраняем настройки и нажимаем «ОК»

Экспорт результатов парсинга

В параметрах мы выбираем тот вид работы, который должен производиться программой. То есть я выбираю здесь исключительно парсинг. Меня не интересует, чтобы «Netpeak Spider» собирал информацию по индексации, битым ссылками и другим параметрам SEO, которые предназначены для анализа внутренней оптимизации сайта. Это необходимо для ускорения работы, а так же для экономии ресурсов и времени.

После того, как выбрана опцию «Парсинг», можно проставить изначальную ссылку на каталог. После этого «Netpeak Spider» перейдет в указанный раздел и начнет переходить по всем ссылкам, собирая информацию, согласно правилам и настройкам, которые мы указали ранее. Для этого:

  • Я ставлю ссылку на каталог, как начальный url.
  • После этого нажимаю «Запуск».
  • Мы видим на вкладке «Парсер», как происходит сбор данных. Если данные собраны, то нам будет показано, что они есть. Для тех полей, где их нет, мы сможем видеть, что они не собраны.

Когда парсер соберет всю информацию и обойдет весь сайт, можно перейти на отдельную вкладку и сразу все результаты посмотреть:

  • Ссылка на страницу товара;
  • Название товара;
  • Описание (где есть описание – оно подсвечивается, где нет – будет пустым);
  • Цена;
  • Картинка.

Мы видим, что все исходные данные собраны. После этого мы нажимаем «Экспорт» и сохраняем в нужном нам формате. Далее мы можем пустить эти данные в дальнейшую работу. Либо работать с ними в таблице и запускать дальнейший импорт на основе этих данных на наш сайт.

Если у Вас возникли вопросы по работе «Netpeak Spider», то Вы можете задать свой вопрос в комментариях. Я постараюсь максимально подробно на него ответить. Если Вы не хотите разбираться с какими-то техническими моментами, и Вам просто нужен результат, то Вы можете и оставить заявку на обратную связь. Мы обсудим, как я смогу Вам помочь: как организовать парсинг, и как спарсить и импортировать данные на Ваш сайт.

Вы можете и бесплатно пользоваться полноценной версией программы течении 7 дней здесь, если вы решите и дальше(после завершения 7 дней пробного периода) пользоваться Netpeak Spider то можете сэкономить 10% воспользовавшись промокодом 14ca4308.

Основным направление нашей работы является создание сайтов. Их разработка происходит на удобных и многофункциональных CMS. И вот 6 причин, почему мы никогда не делаем сайты на бесплатных конструкторах:

  1. Стандартизация и шаблонность

Собственный интернет ресурс за считанные часы не будет отличаться уникальностью среди себе подобных. Функционал и стильный дизайн не спасут ситуацию.

  1. Самодеятельность – враг шедевральности

Трудно рассчитывать, что, взявшись за это непростое дело, каждый пользователь сможет создать стоящий ресурс.

  1. Бесплатные возможности – так ли бесплатны?

Абсолютно бесплатный проект потребует значительных затрат, и в этом вы скоро убедитесь. Основные функциональные расширения и дополнительные возможности оплачиваются отдельно и на постоянной основе. Итоговая стоимость может быть сопоставима с вариантом CMS, но затраты на ресурс на конструкторе не прекратятся.

  1. Низкий предел надежности

Сайт на конструкторе вы попросту арендуете, и об этом следует помнить. Если ваш коммерческий успех остался в прошлом, неоплаченный ресурс могут удалить без возможности восстановления. Вероятность его бесполезного зависания на хостинге также не утешительна. Реанимация бизнеса потребует и реанимации сайта – начинаем все с начала!

  1. Ограниченная функциональность и гибкость

Растущие потребности бизнеса (в частности, речь идет об интернет магазинах) не укладываются в формат возможностей даже самых популярных конструкторов.

  1. Невозможность глубокого SEO

Прошло время, когда «конструкторские» сайты не индексировались поисковыми системами и грузились медленно. Форматные площадки делают возможным установку счетчиков статистики, изменение метатегов, прописывание файлов robots.txt. Такой подход эффективен, но не настолько, чтобы повышать позиции в выдаче.

Выводы

Попытка – не пытка… Тестовый сайт на конструкторе позволит вам освоиться в интернет среде и разработать стратегию под основной ресурс. При этом акцент на поисковый трафик не позволит привлечь колоссальное число пользователей. Разовый трафик неплохо использовать в социальных сетях. Некоммерческий проект не предполагает разработку полновесного сайта.

Скопировать товары с чужого сайта

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *