Кто умеет парсить статьи? Есть работа!

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Приветствую, форумчане! Нужно спарсить очень много контента (статьи) на определенную тематику.

Суть вопроса такая:
1. Называю тематику
2. Статьи могут быть как с одного сайта, так и с разных (их нужно будет большое количество, для начала 100мб)
3. Статьи должны быть полноценными (с подзаголовками h2/h3 и т.д), но без h1. Длинна статей должна быть от 3к.
4. Все подзаголовки должны быть обрамлены в соответствующие теги <h2/3/4>, все абзацы <p>, перечисление <ul/li> и т.д
5. Каждая статья должна быть в отдельном txt файле.
6. По цене не определилась. Предлагайте ту сумму, за которую готовы взяться за работу. Цена должна быть эквивалентна 100мб, чтобы в будущем (если сработаемся) я делала заказы на определенное количество мб исходя из цены за 100.

Что не подходит:
1. Контент из книг (нужны только спаршенные с других сайтов статьи)
2. Дубли статей
3. Мусорный контент (наличие посторонних символов и постороннего html кода)
4. Контент должен быть строго тематическим!

Это основное. По нюансам определимся в ходе работы.
 
Последнее редактирование:

Winst

Новичок
Прошёл марафон
Регистрация
1 Авг 2017
Сообщения
291
Реакции
90
Баллы
28
Цена вопроса?
 

Entrol

Новичок
Регистрация
11 Май 2017
Сообщения
144
Реакции
72
Баллы
28
Интересуют подробности
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Суть вопроса такая:
1. Называю тематику
2. Статьи могут быть как с одного сайта, так и с разных (их нужно будет большое количество, для начала 100мб)
3. Статьи должны быть полноценными (с подзаголовками h2/h3 и т.д), но без h1. Длинна статей должна быть от 3к.
4. Все подзаголовки должны быть обрамлены в соответствующие теги <h2/3/4>, все абзацы <p>, перечисление <ul/li> и т.д
5. Каждая статья должна быть в отдельном txt файле.
6. По цене не определилась. Предлагайте ту сумму, за которую готовы взяться за работу. Цена должна быть эквивалентна 100мб, чтобы в будущем (если сработаемся) я делала заказы на определенное количество мб исходя из цены за 100.

Что не подходит:
1. Контент из книг (нужны только спаршенные с других сайтов статьи)
2. Дубли статей
3. Мусорный контент (наличие посторонних символов и постороннего html кода)
4. Контент должен быть строго тематическим!

Это основное. По нюансам определимся в ходе работы. Спасибо тем, кто откликнулся.
 

AlexPR

VIP
VIP
Прошёл марафон
Регистрация
5 Мар 2017
Сообщения
152
Реакции
46
Баллы
28
100мб ? Както странны вы решили текст измерить.
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Ну давайте представим - 1к текста в среднем весит 1 килобайт в зависимости от симвоолов, ну пусть статья на 3к символов будет весить 4 килобайта. Вот считайте - 25 000 статей по 3к символов будут весить где-то 100мб. Все зависит от длинны статьи.
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Просто когда парсят, не считают количество статей - считают вес (одного или напаршенных в папку) документов.
 

Seva

Новичок
Регистрация
1 Мар 2017
Сообщения
48
Реакции
17
Баллы
8
а потом через годик на продажу как уник :acutee:
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Вот это схема! Продавать не думали ее?
 

Seva

Новичок
Регистрация
1 Мар 2017
Сообщения
48
Реакции
17
Баллы
8
Я нет а вот вы были замечены в продаже
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Ну так там были качественные уникальные статьи, для моего дела грех такие использовать.
 

petrovna38

Новичок
Регистрация
15 Фев 2018
Сообщения
2
Реакции
0
Баллы
1
Цена вопроса интересует
 

Яло

Новичок
Регистрация
27 Июл 2017
Сообщения
131
Реакции
48
Баллы
28
Кого заинтересовало - пишите в лс цену, за сколько возьметесь работать. Можно и меньше, чем 100 мб. В общем пишите - обсудим!!
 
Сверху Снизу