Перейти к содержанию

Парсер веб сайтов

Встроенный обработчик модуля "Парсер веб сайтов" предоставляет возможности по импорту контента из сети интернет на ваш сайт. Обработчик полностью интегрирован с модулем и поддерживается наравне с модулем.

Особенности:

  • Детальные настройки
  • Многопоточность
  • Стабильная работа

Установка селектора

Селектор это набор правил, по которым парсер определяет искомую информацию. Состоит из двух частей SELECTOR:CONTENT, разделенных двоеточием.

SELECTOR

В первой части селектора перед двоеточием, задаются идентификаторы тегов, разделенных пробелом.

  • name - слово без дополнительных обозначений, поиск по имени тега. Пример: div, span, li
  • .class - слово в начале с точкой, поиск по имени класса тега. Пример: .row, .link, .title-text
  • #id - слово в начале со знаком решетки, поиск по идентификатору тега. Пример: #description, #item-name, #block

CONTENT

Вторая часть после двоеточия определяет, какая информация будет получена из найденого тега.

  • text - текстовые данные внутри тега и всех вложенных тегов.
  • html - текстовые данные и внутренние теги.
  • innerText - текстовые данные внутри тега, исключая все данные внутренних тегов.
  • [attribute] - значение атрибута тега, указывается имя атрибута в квадратных скобках.
Примеры селекторов

h2:innerText

.catalog-rewrite-item .catalog-list-caption-link

.pagerules .nav-left .next span:[data-href]

Описание настроек

Основные настройки

  • Доменное имя - используется при работе парсера для постановки в ссылки.
  • Путь страницы для парсинга - Начальная страница для работы парсера.
  • Дополнительные страницы - можно указать список страниц.

Разделы и пагинация

  • Селектор ссылок на разделы - задает определение ссылок, в которых парсер в дальнейшем будет искать элементы.
  • Селектор ссылок на следующую страницу - на странице раздела, поиск ссылки на следующую страницу этого раздела.
  • Селектор ссылок на элемент - поиск ссылки для добавления элемента в обработку.
  • Селектор списка имен разделов - задает список разделов в виде дерева, к которому будет привязан новый элемент.
  • Удалить из списка имен разделов, разделы с именем - исключает названия указанных разделов из списка дерева.

Элемент

  • Селектор названия элемента - определяет название элемента.
  • Селектор детального описания - определяет детальное описание элемента.
  • Тип детального описания - задает тип детального описания.
  • Селектор картинки для анонса - определяет поиск ссылки для картинки анонса.
  • Селектор детальной картинки - определяет поиск ссылки для детальной картинки.
  • Селектор списка имен разделов - задает список разделов в виде дерева, к которому будет привязан новый элемент со страницы элемента.
  • Удалить из списка имен разделов, разделы с именем - исключает названия указанных разделов из списка дерева, добавленных со страницы элемента.
  • Уникальность По url элемента - задает определение элемента в инфоблоке по url парсинга.
  • Уникальность По названию - задает определение элемента в инфоблоке по названию элемента.
  • Уникальность По свойству - задает определение элемента в инфоблоке по указанному свойству.

Свойства

  • Добавлять свойства - определяет значения для конкретных свойств.
  • Список свойств с названиями - определяет список свойств элемента, задаются селектора для названия и значения свойства. Новые свойства создаются автоматически по названию.

Торговый каталог

  • Добавлять цены - определяет значения для конкретных типов цен.
  • Установка количества - определение количества для торгового каталога.
  • Соответствие значений количества - переформатирование значений количества с источника в числовые значения битрикс.
  • Селектор веса - определяет значение веса для торгового каталога.
  • Селектор длины - определяет значение длины для торгового каталога.
  • Селектор ширины - определяет значение ширины для торгового каталога.
  • Селектор высоты - определяет значение высоты для торгового каталога.