Парсер веб сайтов
Встроенный обработчик модуля "Парсер веб сайтов" предоставляет возможности по импорту контента из сети интернет на ваш сайт. Обработчик полностью интегрирован с модулем и поддерживается наравне с модулем.
Особенности:
- Детальные настройки
- Многопоточность
- Стабильная работа
Установка селектора
Селектор это набор правил, по которым парсер определяет искомую информацию.
Состоит из двух частей SELECTOR
:CONTENT
, разделенных двоеточием.
SELECTOR
В первой части селектора перед двоеточием, задаются идентификаторы тегов, разделенных пробелом.
- name - слово без дополнительных обозначений, поиск по имени тега. Пример: div, span, li
- .class - слово в начале с точкой, поиск по имени класса тега. Пример: .row, .link, .title-text
- #id - слово в начале со знаком решетки, поиск по идентификатору тега. Пример: #description, #item-name, #block
CONTENT
Вторая часть после двоеточия определяет, какая информация будет получена из найденого тега.
- text - текстовые данные внутри тега и всех вложенных тегов.
- html - текстовые данные и внутренние теги.
- innerText - текстовые данные внутри тега, исключая все данные внутренних тегов.
- [attribute] - значение атрибута тега, указывается имя атрибута в квадратных скобках.
Примеры селекторов
h2:innerText
.catalog-rewrite-item .catalog-list-caption-link
.pagerules .nav-left .next span:[data-href]
Описание настроек
Основные настройки
- Доменное имя - используется при работе парсера для постановки в ссылки.
- Путь страницы для парсинга - Начальная страница для работы парсера.
- Дополнительные страницы - можно указать список страниц.
Разделы и пагинация
- Селектор ссылок на разделы - задает определение ссылок, в которых парсер в дальнейшем будет искать элементы.
- Селектор ссылок на следующую страницу - на странице раздела, поиск ссылки на следующую страницу этого раздела.
- Селектор ссылок на элемент - поиск ссылки для добавления элемента в обработку.
- Селектор списка имен разделов - задает список разделов в виде дерева, к которому будет привязан новый элемент.
- Удалить из списка имен разделов, разделы с именем - исключает названия указанных разделов из списка дерева.
Элемент
- Селектор названия элемента - определяет название элемента.
- Селектор детального описания - определяет детальное описание элемента.
- Тип детального описания - задает тип детального описания.
- Селектор картинки для анонса - определяет поиск ссылки для картинки анонса.
- Селектор детальной картинки - определяет поиск ссылки для детальной картинки.
- Селектор списка имен разделов - задает список разделов в виде дерева, к которому будет привязан новый элемент со страницы элемента.
- Удалить из списка имен разделов, разделы с именем - исключает названия указанных разделов из списка дерева, добавленных со страницы элемента.
- Уникальность По url элемента - задает определение элемента в инфоблоке по url парсинга.
- Уникальность По названию - задает определение элемента в инфоблоке по названию элемента.
- Уникальность По свойству - задает определение элемента в инфоблоке по указанному свойству.
Свойства
- Добавлять свойства - определяет значения для конкретных свойств.
- Список свойств с названиями - определяет список свойств элемента, задаются селектора для названия и значения свойства. Новые свойства создаются автоматически по названию.
Торговый каталог
- Добавлять цены - определяет значения для конкретных типов цен.
- Установка количества - определение количества для торгового каталога.
- Соответствие значений количества - переформатирование значений количества с источника в числовые значения битрикс.
- Селектор веса - определяет значение веса для торгового каталога.
- Селектор длины - определяет значение длины для торгового каталога.
- Селектор ширины - определяет значение ширины для торгового каталога.
- Селектор высоты - определяет значение высоты для торгового каталога.