Настройка лент WPGrabber

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Настрою парсинг с любых сайтов, при желании возможен перевод, поиск и замена любых частей теста.
Доноров предоставляете вы - я настраиваю.

Создание автонаполняемых сайтов, настройка WordPress плагина WPGrabber, заказ настройки лент для грабера.



Настрою ленты любой сложности плагина WPGrabber для WordPress
 

Tresh

Новичок
Регистрация
25 Ноя 2017
Сообщения
26
Реакции
4
Баллы
3
Перевод идет через Гугл Транслейт?
Есть возможность двойного перевода?? (к примеру, с русского ---> английский ---> португальский)
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8

Вложения

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Пример импорта статей с forexlive.com для WPGrabber



1) Создаем новую ленту в настройках плагина WPGrabber для Wordpress.


В строке «Наименование ленты» можно записать любое имя нашей настройки импорта, я обычно пишу URL без протокола, например: «forexlive.com/technical-analysis».




2) Тип ленты устанавливаем html.


3) «URL индексной страницы» — адрес раздела сайта, с которого будем собирать ссылки на копируемый контент.
У нас этот URL: «Forexlive | Forex Technical Analysis Live Updates»


4) Обязательно надо установить параметр «Кодировка HTML-страницы». Кодировку страницы сайта мы ищем в исходном HTML-коде. Нажимаем сочетание клавиш Ctrl + U или кликнуть правой кнопкой мыши и выбрать пункт «Просмотр кода страницы» (для Google Chrome), или «Исследовать элемент» (для Mozilla Firefox).





Ищите в исходном html-коде страницы подобную строку:
<meta http-equiv=«Content-Type» content=«text/html; charset=«ЗДЕСЬ КОДИРОВКА» />

Пользуйтесь поиском браузера (Ctrl + F) и вводите слово charset.



У нас это: <meta charset=«UTF-8» />
Соответственно устанавливаем в поле «Кодировка HTML-страницы» кодировку UTF-8


5) Следующее поле «Шаблон ссылок», с помощью которого идет сбор ссылок на статьи для скрапинга (граббинга), для импорта на свой сайт. Для правильного заполнения параметра «Шаблон ссылок», в WPGrabber необходимо определить вид ссылок в коде страницы.
Для этого берём любой заголовок. У нас первый заголовок контента носит название
«Forex technical analysis: USDJPY moves to the red on the day.»


Жмём «Просмотреть код»




На скриншоте выше видим URL-адрес данной ссылки в теге A. Мы видим, что страница статьи под заголовком «Forex technical analysis: USDJPY moves to the red on the day.» расположена по адресу URL: //www.forexlive.com/technical-analysis/!/forex-technical-analysis-usdjpy-moves-to-the-red-on-the-day-20171116

Рассмотрим структуру этого URL-адреса:
//www.forexlive.com/technical-analysis/!/ некоторое количество букв и знаков

Важно то, что эта часть URL фиксированная:
//www.forexlive.com/technical-analysis/!/

Т.к. эта часть URL остается постоянной для всех других ссылок, идущих на странице.

Рассмотрим остальные ссылки:



Все эти ссылки подходят под наше описание шаблона. Для корректного заполнения поля «шаблон ссылок» в WPGrabber необходимо изучить формат описания регулярных выражений PCRE.



Читать продолжение

Скачать эту ленту можно здесь:
forexlive_com_technical-analysis.xml
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Парсинг в WPGrabber с авторизацией
Встречаются сайты, ограничивающие просмотр
для не зарегистрированых посетителей.

Типа такого: You have viewed your 1 free article


В WPGrabber для WordPress это выглядить как текст не найден!


Предлагаю простое решение: подложить cookies зарегистрированного пользователя.


Для этого используем плагин для Firefox тормозиллы :)


Устанавливаем Cookie Exporter, регистриремся на ресурсе,

В меню "Инструменты" -> "Export Cookies..." сохраняем под именем "cookies.txt" в папку временных файлов

Обычно это "/wp-content/wpgrabber_tmp/"


Файл cookies.txt выглядить примерно так:


Проверяем:










Страница с контентом:


Естественно, что периодически сессию придётся обновлять.
Кроме этого надо добавить в файле TGrabberCore.php
в функцию getContent

curl_setopt($ch, CURLOPT_COOKIEFILE, $this->cookieFile);
curl_setopt($ch, CURLOPT_COOKIEJAR, $this->cookieFile);


а в function __construct()

добавить
$this->tmpDir = $this->rootPath . $this->config->get('testPath');
$this->cookieFile = $this->tmpDir . 'cookies.txt';



А можите обратиться ко мне:
@servakov (Nike Johnson)или на kwork,
и я вам всё настрою.
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Допилил WPGrabber , тепер может работать через прокси, с авторизацией
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Импорт контента в блог со стен групп и сообществ соц. сети Вконтакте.ру

Добавлено:
Фотки с page_album_photos, background-image c видео

 
  • Like
Реакции: Seva

denya090

Новичок
Регистрация
24 Апр 2018
Сообщения
1
Реакции
0
Баллы
1
Здравствуйте. Заинтересовали ваши доработки плагина. А как его можно приобрести?
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
11.05.2018 вконтакте обновил разметку,
обновление плагина wpgrabber 2.1.315
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Парсинг групп Цекербука
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
там телеграм есть, скайп не люблю :)
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Обновил плагин wpgrabber_2.1.318,
работает "Не сохранять записи без картинок" без дополнительных фильтр слов
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
wpGrabber для парсинга с Яндекс.Дзен
На примере канала "Философский подход к созданию каналов Яндекс.Дзен"
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Обновление плагина WPGrabber 2.1.319
Удалить первое изображение из статьи — Для тем в которых отображаются миниатюры и дублируются в статье

Задержка импорта — Используйте если у вас не успевают загружаться картинки на сервер или донор блокирует слишком частые соединения, возможно пригодится и при парсинге через бесплатные прокси (Обычно 2-10 сек. вполне достаточно)
 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
Обновление плагина WPGrabber 2.1.320
WPGrabber 2.1.320
- Задать имена файлов картинок из заголовка поста
- Задать своё названия атрибута class для картинки
- Сгенерировать alt: из атрибута title картинки или заголовка поста
- Удалять атрибуты лишние атрибуты: itemprop,srcset,data-original,data-src,data-srcset, ит.д.

 

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8

itservice

Новичок
Регистрация
8 Дек 2017
Сообщения
45
Реакции
3
Баллы
8
WPGrabber 2.1.4: спарсить теги - это реально.

Настрою парсинг с любых сайтов, поиск и замена любых частей теста.
Доноров предоставляете вы - я настраиваю.
 
Сверху Снизу