Дмитрий Кондин

Программа для загрузки объявлений из АВИТО

Recommended Posts

1.

Версия AdvertGrabber под SiteBill - https://yadi.sk/d/DSQeHAxp3Gb4HA

Стоимость лицензии: 1500р

Для тех у кого есть лицензия от стандартной версии - 800р

Вся информация касающаяся парсера размещена на сайте: http://advertgrabber.ddbase.ru/

Порядок оплаты: http://advertgrabber.ddbase.ru/oplata/

Все вопросы касающиеся импорта данных на SiteBill размещайте пожалуйста в данной ветке

Вирусов нет, проверено.

Программа платная. Для покупки стучимся в скайп к этому человеку dd-base или в его профиле на форуме.

Можете сказать кодовое слово при общении с ним sitebill. Тогда он может проконсультировать по настройкам подробнее.

Парсит разделы авито и создаем Excel-файлы, которые можно вгружать на сайт и парсить с помощью платного приложения Excel.

2. нужно скачать два скрипта и загрузить их в корень сайта (сначала распакуйте - это php скрипты):

post.zip - этот скрипт будет принимать файлы из программы-парсера

cron_excel_parser.zip - этот скрипт будет запускать процесс парсинга Excel-файлов.

3. Настройка post.php - внутри поменяйте значение строчки fu4ituydss1 на свое - это будет секретный код, чтобы его знали только вы и программа граббер. 

4. Создайте каталоги

/cache/upl/arch/ - тут будут архивы с файлами

/cache/upl/xls_uploads - тут кэш для картинок

5. Теперь запустите сам граббер и добавьте в разделе Ссылки нужный вам раздел и город.

Screenshot_3.png

6. В настройках программы укажите адрес для выгрузки файлов 

Screenshot_4.png

7. Запустите парсинг и после нажмите кнопку Выгрузка

Screenshot_5.png

8. Теперь у вас должен появиться файл excel в каталоге сайте /cache/upl/

Screenshot_6.png

9. Запускаем процесс парсинга

http://ваш_сайт/cron_excel_parser.php

Готово.

cron_excel_parser.zip

post.zip

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Авито часто меняет настройки
Как отреагирует на граббер???
+
Может ли по прямым ссылкам на объекты из файла работать?
Ссылки получаю в формат html на почту
можно через doc

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как отреагирует на граббер???

Обычно восстановление работоспособности происходит в течении пары часов после обнаружения факта обновлений

Может ли по прямым ссылкам на объекты из файла работать?

нет

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 03.03.2016в07:21, rumantic сказал:

Готово.

Как будет раскидваться из эксель по разделам структуры меню?
Настройки выгрузки есть возможность сделать?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
23 часа назад, DD-Base сказал:

Как отреагирует на граббер???

Обычно восстановление работоспособности происходит в течении пары часов после обнаружения факта обновлений

Может ли по прямым ссылкам на объекты из файла работать?

нет

в скайп при поиске выпадает 5 контактов и не один не соответствует написанию
прошу в ответ
sergmashkin500

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
10 час назад, nagovizin сказал:

с фото водный знак авито режет?

ОФФТОП.

Уже вижу. Грузится фото на авито, внизу лепят вотермрк. Граббер тянет, подрезает нижнюю канву, фото в сайте без авито-вотермарка. Но мы же тоже не лыком шиты и выгружаемся на авито. И опять на фото вотермарк. Но вот сосед уже тянет эту объявку граббером и тоже подрезает фото перед постом на свой сайт. Откуда фото тоже идет на авито, так как "все мы там хотим". И так далее. Интересно, успеет ли фотка дойти до невменяемого огрызка или нет)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 03.03.2016в07:21, rumantic сказал:

 

9. Запускаем процесс парсинга

http://ваш_сайт/cron_excel_parser.php

Готово.

после запуска крона 
выдало


Warning: require_once(/home/qdytrweu/public_html/apps/excel/admin/admin.php): failed to open stream: No such file or directory in /home/qdytrweu/public_html/cron_excel_parser.php on line 61

выгрузки не произошло (((
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У вас похоже просто нет приложения Excel, которое собственно и выполняет всю "грязную" работу, по переносу данных из файла граббера в БД.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
8 часов назад, SergeiMashkin сказал:

после запуска крона 
выдало


Warning: require_once(/home/qdytrweu/public_html/apps/excel/admin/admin.php): failed to open stream: No such file or directory in /home/qdytrweu/public_html/cron_excel_parser.php on line 61

выгрузки не произошло (((
 

Для работы приложения нужна платная версия Excel https://www.sitebill.ru/client/cart.php?gid=7

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
22 минуты назад, bogdanoff сказал:

А можно загружать только объявления от собственников?

да, если при формировании ссылки в браузере выбрать частников

в ссылке будет указано "?user=1"

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

с платным приложением
крон работает
но как настроить выгрузку в правильные рубрики ??
выгружает в "категория не указана"
где сделать настройки
???
вместо крона руками? загружать эксель - бред ((((((
 

фото - в принципе не загружаются

+

телефоны и контакты. не нужны как пользователи
их надо сохранять как авторов объявлений, но выдачу их под объявлениями на сайте не надо
..
короче тонкие настройки нужны

 

а так
деньги на ветер
и за грабер и за эксель

 

****************

 

еще момент:

епопробую ручками пока заменять наименования колонок в эксель
но тут вопрос
файлы из грабера выгружаются параллельно в два места
cashe/
и
cashe/arh/
из которого выгребает крон?
где заменять ??


********
 

форма объявлений сделана индивидуальная.
пришлось подгонять , менять названия на сайте, чтобы эксель имел соответствующие колонки
.....
единственное что менять не стал, это "Раздел"
совершенно другая структура в принципе
и как где указать соответствия ?! нужна подсказка ))
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

смыльте кто-то, кому не жалко, в abushyk собака gmail.com файлик экселя от парсера, я посмотрю хоть как он выглядит.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а еще лучше сюда вложить файл парсера ну и по возможности видео работы 
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 час назад, abushyk сказал:

смыльте кто-то, кому не жалко, в abushyk собака gmail.com файлик экселя от парсера, я посмотрю хоть как он выглядит.

с платным приложением
крон работает
но как настроить выгрузку в правильные рубрики ??
выгружает в "категория не указана"
где сделать настройки
???
вместо крона руками? загружать эксель - бред ((((((
 

фото - в принципе не загружаются

+

телефоны и контакты. не нужны как пользователи
их надо сохранять как авторов объявлений, но выдачу их под объявлениями на сайте не надо
..
короче тонкие настройки нужны

 

а так
деньги на ветер
и за грабер и за эксель

 

****************

 

еще момент:

епопробую ручками пока заменять наименования колонок в эксель
но тут вопрос
файлы из грабера выгружаются параллельно в два места
cashe/
и
cashe/arh/
из которого выгребает крон?
где заменять ??


 

 

 

))
вот пример 
)))

........

плюс после парсера
убивает каждый раз меню с разделами напрочь
руками приходится каждый редактировать
+
естественно ни о каком поиске речь не идет ((((
хрень выскакивает

хотя все колонки таблицы подогнал под формат
все равно
.
+
еще обнаружил проблему:
улица вываливается в формате: 
                      район, улица, дом
и естественно сразу убита карта - не работает
плюс все остальеное вышесказанное.
нужны тонкие настройки через эксель приложение сайтбил иоли яндекс загруз-выгруз
 


 

avito04032016_2201.xlsx

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
36 минуты назад, doma сказал:

а еще лучше сюда вложить файл парсера ну и по возможности видео работы 
 

вот по просье еще скрин где показывает колонку ) написал выше

Снимок.JPG

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

работает быстро и качественно выгребает. но формат не положить на базовый.
треба !!! настройки на загруз-
весь сайт режет (((((((

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Хотелось бы больше настроек по выгрузке на сайт.
1)Не определяет правильно категорию-раздел
2)Не загружает на сайт фотки
3)Не определяет улицы, даже по геоданным, хотя они тянутся в парсере, просто правильно разбить, разложить по ячейкам.
4)Также и номера домов
5)Не отправляется на сайт и Имя подавшего объявление

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

По загрузке в "правильный" раздел могу сразу уточнить, что правильно загрузит только если ваше дерево категорий соответствует дереву источника. Добуквенно.

Отлов поля в котором лежит раздел в файле идет по имени колонки в шапке. Поэтому если в файле Раздел, а у вас поле называется Тип, то мимо кассы пойдет.

По геоданным определение адреса не происходит.

Это то, что я могу сказать сразу без тестовой вгрузки.

 

ПС. Мысль про настройку что куда класть согласно пришедшему типу - трезва и рациональна. Но до данного момента мы ее не использовали, поскольку источники были не определенными и никто не мог сказать какие цепочки разделов вообще прийдут в колонке Раздел. Но если пошла такая петрушка под авито, а у авито есть таки какая никакая структура, то тут уже можно колдовать.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
6 часов назад, SergeiMashkin сказал:

с платным приложением
крон работает
но как настроить выгрузку в правильные рубрики ??
выгружает в "категория не указана"
где сделать настройки
???

Если у вас есть Категория не указана - значит в файле выгрузки нет категории. В файле она должна быть в таком виде

Screenshot_20.png.196915adcf37eb9fee3c02

6 часов назад, SergeiMashkin сказал:

фото - в принципе не загружаются

Фотографии загружаются после того как вы запускаете скрипт 

http://ваш_сайт/cron_excel_parser.php

Именно он запускает процесс парсинга файла и загрузку фото, если фото нет, значит его в файле Excel нет, смотрите файл Excel 

Screenshot_21.png.a264fd2dd21c89e411f02c

Можно на сервере установить запуск парсера через крон. Для этого в кроне прописать вот такую строчку нужно

34 * * * * /usr/bin/wget -O /dev/null -q http://ваш_сайт/cron_excel_parser.php

34- это запуск каждый час в 34 минуты. В результате если вы в программе у себя нажимаете выгрузить файлы, то они загружаются на сервер. А затем скрипт будет раз в час по одному файлу загружать. Раз в час сделано для того, чтобы картинки успели загрузиться. И в файле Excel лучше не делать сразу много записей. Зависит от вашего хостинга, если на хостинге ограниченные ресурсы, то нужно закачивать по 10-20 объявлений. Но тогда можно запускать раз в пять минут, например.

*/5 * * * * /usr/bin/wget -O /dev/null -q http://ваш_сайт/cron_excel_parser.php

Т.е. чем меньше порции объявлений, тем они быстрее загружаются и тем чаще можно запускать скрипт парсинга.

6 часов назад, SergeiMashkin сказал:

файлы из грабера выгружаются параллельно в два места
cashe/
и
cashe/arch/
из которого выгребает крон?
где заменять ??

парсер забирает файлы из /cache/ 

а каталог /cache/arch/ - нужен для того чтобы складывать архивные файлы и можно было при необходимости их перепарсить, если скопировать в /cache/

Это все прописано в post.php

<?
$file_name = $_POST['file_name'];
$file_data = $_POST['file_data'];
if ( $_GET['secure'] != '3452345345t'  ) {
echo 'ERROR:secure code incorrect';
exit;
}

file_put_contents($_SERVER['DOCUMENT_ROOT'].'/cache/upl/' . $file_name, pack('H*', $file_data));
file_put_contents($_SERVER['DOCUMENT_ROOT'].'/cache/upl/arch/' . $file_name, pack('H*', $file_data));

echo 'OK'; 

?>

и в cron_excel_parser.php

$file_to_parse = get_first_xls_from_dir(SITEBILL_DOCUMENT_ROOT.'/cache/upl/');

 

6 часов назад, SergeiMashkin сказал:

еще обнаружил проблему:
улица вываливается в формате: 
                      район, улица, дом
и естественно сразу убита карта - не работает

В загружаемом файле все разделено на нужные колонки, вы видимо грузили вручную поэтому у вас так все разлетелось.

Screenshot_22.png.65f4956f1e5de550271116

6 часов назад, SergeiMashkin сказал:

а так
деньги на ветер
и за грабер и за эксель

Если не можете настроить, можете сказать доступ к фтп на сайт, настроим вам.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

  • Похожие публикации

    • Автор: Дмитрий Кондин
      Агент недвижимости без парсера, это как таксист без автомобиля.
      Чтобы объять необъятное, нужно использовать инструменты для парсинга площадок с объявлениями недвижимости. Чем быстрее вы получите объявление от собственника, тем больше шанс совершить выгодную сделку.
      В этом видео я подробно рассказываю о том, как настраивается парсер и какой результат получает в итоге агентство недвижимости.
      Цены и условия приобретения тут https://www.sitebill.ru/ads-api-parser/
      Парсер недвижимости только для CMS Sitebill https://www.sitebill.ru/ 
    • Автор: metrpro
      После импорта очередного фида геокодер счел нужным установить координаты половины объектов из города Геленджик в границах города Рига, что, безусловно, забавно, но совершенно не доставляет, ибо объявлений в фиде было около 800. Адреса правильные, дома существующие, но ... в Риге! В РИГЕ, КАРЛ!!!
      Вот как один из объектов выглядит в фиде:
      <location> <country>Россия</country> <locality-name>Геленджик</locality-name> <sub-locality-name>район пансионата ''Сосновая роща''</sub-locality-name> <address>Гоголя улица, 7</address> </location> Все канонично. А вот как выглядит на сайте: 

      Отсюда два вопроса:
      1. Как это массово исправить, произведя перекодирование координат (почистить через phpmyadmin или еще что-то)
      2. Как этого избежать впредь?
    • Автор: Opossum_Shultz
      при редактировании выгруженных через платный Excel данных и загрузке через excel free после удачной загрузки - фраза
      "Были добавлены изображения в кэш. Необходимо запустить парсер кэшированных картинок".
      ссылки на изображения в файле не менялись. 
      Возникает вопрос - если вообще удалить этот столбец со ссылками на картинки перед загрузкой через excel free - ссылки на изображение не гокнутся?
      Выгружаем через платный excel потому, что в  free во время выгрузки - процесс рубится по таймауту.
    • Автор: Дмитрий Кондин
      Теперь есть специальный ресурс, который вам может спарсить любой город по желанию и выдать вам XML файл в формате яндекс-недвижимости.
      Смотрим тут http://atlcom.ru/main/
      Модуль для парсинга яндекс-недвижимости тут https://www.sitebill.ru/client/cart.php?gid=9
      Как это работает:
      Вы выбираете на ресурсе atlcom.ru нужный город, оплачиваете эту выгрузку Вам выдают URL источника XML-файла Мы вам настраиваем модуль Парсинга XML https://www.sitebill.ru/client/cart.php?gid=9 Картинки чаще всего содержат логотип авито, но и на этот случай в модуле парсинга мы придумали функции подрезания фото, чтобы убрать логотип авито. Данных будет оттуда поступать очень много, поэтому в настройках при загрузке на сайт можно будет указать статус "Не активно", т.е. все эти объявления будут приходить в неактивном состоянии. Вы будете вручную их обрабатывать (телефоны собственников будут отображаться в форме редактирования). И избранные объявления можете публиковать на своем сайте, при этом контакты будут ваши выводиться.
    • Автор: bogdanoff
      Добрый день.
      Ситуация такая:
      1. При парсинге в фиде имеются объекты разных агентов на разные телефоны.
      2. Далее они выгружаются ко мне на сайт в лк пользователя, но в лк только один телефон.
      3. Чьи контакты попадут в фид http://mysite.ru/yandexrealty/, телефоны агентов или все объявления будут с одним номером из лк?
      Из этой ссылки http://wiki.sitebill.ru/index.php?title=%D0%9F%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%22%D0%92%D1%8B%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D0%B0_Yandex.Realty%22 понял следующее:
      Если я не буду никого переносить в другую группу (она у маня сейчас одна) и пропишу в поле apps.yandexrealty.contacts_assoc_str значение 1:3, то контактные данные при парсинге будут браться из xml-файла, а если чего-то не хватает, то из учетной записи. 
      Я правильно все понял или нет?