Толик Панков
hex_laden
............ .................. ................
November 2020
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

Толик Панков [userpic]
xidel, крохотный парсер HTML, XML, JSON

Преамбула


Понадобилось тут быстро и качественно выдрать из HTMLки ссылки и картинки.

Наткнулся на довольно интересный инструмент. Называется xidel, и умеет вытаскивать данные не только из HTML, но также из XML, CSS, JSON, в общем штука получается довольно универсальная. Еще один плюс - кросплатформенность. На сайте есть готовые бинарники под Windows, Linux, пакет для Debian. Все вышеперечисленное, что очень приятно, есть в версиях, как для x86, так и для x64. Также имеются версии для Android ARM и Mac OS 10.8. Открыт и исходный код. Утилита, что хорошо, маленькая, самая большая версия для Android - 2Мб, остальные еще меньше.

Брать исходный файл программа может, как из сохраненной на диск страницы, так и непосредственно с сайта.

Примеры использования


На самом деле, инструкция там довольно большая, покажу только самые простые вещи.

Выдираем все адреса ссылок с главной страницы:

xidel -s --extract "//a/@href" "http://tolik-punkoff.com"

Выдираем адреса изображений:

xidel -s --extract "//img/@src" "http://tolik-punkoff.com"

То же самое с сохраненной предварительно на диск страницей:

wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"

xidel -s --extract "//a/@href" "/tmp/test.html"


wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"

xidel -s --extract "//img/@src" "/tmp/test.html"


Результат




Скачать


На официальном сайте
Мой пакет для Slackware

Это репост с сайта http://tolik-punkoff.com
Оригинал: http://tolik-punkoff.com/2019/08/16/xidel-krohotnyj-parser-html-xml-json/