A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров

Тема в разделе "Рекламный раздел", создана пользователем A-Parser Support, 22.05.17.

  1. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

    В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера


    • Где и как можно посмотреть результаты парсинга?
    • Как подключить прокси с авторизацией?
    • Extra query string, что это такое и как применять эту опцию?
    В уроке рассмотрено:
    • Просмотр результатов парсинга 3-мя способами:
      • Способ первый. "Из очереди заданий, если задание на паузе".
      • Способ второй. "Из очереди заданий, если задание завершено".
      • Способ третий. "Забираем результат из папки results".
    • Подключение прокси с авторизацией.
    • Примеры использования опции Extra query string.
    Полезные ссылки:
    Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

    [​IMG]
     
  2. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

    43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

    Аукцион доменов REG.RU

    Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.

    [​IMG]

    Определение категорий сайта

    Парсер, собирающий категории сайтов из MegaIndex.

    [​IMG]

    Парсинг PDF

    Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.

    [​IMG]

    Кроме этого:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов

    [​IMG]
     
  3. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

    44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

    Парсер Cloudflare Radar

    Парсер для сбора категорий сайтов из Cloudflare Radar

    [​IMG]

    Rozetka - получение данных по API

    Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.

    [​IMG]

    Парсинг объявлений kufar.by

    Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.

    [​IMG]

    А также, обновлены следующие ресурсы:
    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов

    [​IMG]
     
  4. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку

    [​IMG]
    Улучшения

    • В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
    • Основные улучшения от перевода данных парсеров на Node.js:
      • увеличение производительности в ~1.5 раза
      • унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
    • Добавлены новые парсеры:
    • В [​IMG] HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
    • В [​IMG] SE::Google::Translate добавлены новые переменные:
      • $translit_orig - оригинальный текст транслитом
      • $translit_translated - переведенный текст транслитом
      • $variants.$i.text - список вариантов перевода оригинального текста
    • В [​IMG] SE::Bing обновлен список регионов и языков
    • В [​IMG] Social::Instagram:: Drofile и [​IMG] Social::Instagram:: Dost добавлена возможность собирать кол-во видеопросмотров
    • В [​IMG] SE::Yandex::Translate добавлена возможность отключать использование сессий
    • В [​IMG] Net::HTTP добавлена возможность указывать user-agent для Chrome
    • В парсере [​IMG] Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
    • В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
    • В Net::Whois обновлена поддержка всех зон
    • Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
      • "All" - использует все прокси выбранные для задании
      • конкретный проксичекер - использует его, даже если он не выбран в задании
    • Добавлена поддержка устаревших версий SSL
    • JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
    • JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
    • JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
    Исправления в связи с изменениями в выдаче
    Исправления
    • В SE::Yandex исправлена работа Extra query string
    • Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
    • Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
    • Maps::Yandex исправлен и переведен на puppeteer
    • Исправлена ошибка в приоритетах выбора проксичекера
    • JS парсеры: исправлен follow_meta_refresh
    • API: исправлена работа параметра rawResults

    [​IMG]
     
  5. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    Сборник рецептов #45: парсеры Google Places и prom.ua, получение характеристик картинок "на лету"

    45-й сборник рецептов, в который вошли парсер результатов поиска на Google Places, парсер для prom.ua и пример скачивания картинок с одновременным определением их характеристик.

    Парсер Google Places

    Парсер для поиска заведений по ключевым словам в Google Places. В отличие от парсера Google Maps здесь не нужно задавать координаты поиска, а достаточно вместе с ключевым словом написать нужный город.

    [​IMG]

    Парсер prom.ua

    Парсинг товарных позиций для одной из крупнейших в Украине торговых площадок prom.ua. Кроме собственно названий товаров и их цен, позволяет собирать такие данные продавцов, как телефоны и электронные почты.

    [​IMG]

    Скачивание картинок

    В этом примере показан способ решения задачи по скачиванию картинок и одновременному получению их характеристик, а именно размера и ориентации. Для получения характеристик используется NodeJS модуль.

    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!

    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов

    [​IMG] [​IMG]
     
  6. A-Parser Support

    A-Parser Support Пользователь Вебмастер

    Регистрация:
    19.05.17
    Сообщения:
    105
    Симпатии:
    2
    1.2.1148 - накопительное обновление встроенных парсеров и исправление Bypass Cloudflare

    [​IMG]

    Улучшения
    • В [​IMG] HTML::LinkExtractor добавлена опция Skip comment blocks, которая позволяет исключить из парсинга блоки html комментариев
    • Повышена производительность [​IMG] Shop::Yandex::Market
    • В [​IMG] Check::RosKomNadzor добавлена возможность выбирать источник для проверки
    • [​IMG] Maps::Yandex переписан на TypeScript, добавлена возможность подключения сервисов разгадывания каптч
    • В [​IMG] Rank::Alexa::API добавлена возможность получать название страны вместо ее кода
    • В [​IMG] Rank::Ahrefs расширен перечень собираемых данных
    • В [​IMG] SE::Seznam добавлена поддержка сессий и возможность разгадывать каптчи
    • Реализована возможность использовать прокси с одним IP: port, но с разными логинами
    Исправления в связи с изменениями в выдаче
    Исправления
    • Исправлен экспериментальный обход защиты Cloudflare с помощью Chrome
    • Исправлена ошибка в Maps::Yandex, из-за которой не собиралось больше 1 страницы, а также исправлена проблема с получением исходного кода страниц
    • В SE::Youtube исправлено игнорирование настроек поиска, проход по пагинации, а также в некоторых случаях не делались повторные попытки
    • В SE::Google::KeywordPlanner исправлена авторизация
    • Исправлена утечка памяти, которая проявлялась при долго работающих заданиях с большим числом запросов
    • Исправлена ошибка с Buffer, проблема появилась в одной из предыдущих версий

    [​IMG] [​IMG]
     

Поделиться этой страницей