jkeks блог


Пишем свой универсальный рипер контента с любого сайта

17.1.2020 - 1021 просмотр ;)




Есть в природе бойлеры, которые умеют рипать контент с любой страницы, но мне было лень разбираться что такое композер, автолоадер и даже стало лень дальше листать гугл в поисках примитивных решений. Написал свой.

Суть оказалась проста:

Надо вырезать все что ДО и после body
Вырезать любые вкрапления стилей и JavaScript т.к. они плайнтекстом могут лежать внутри тела html, в тэге. Короче убираем тоже.
Все пробелы сжимаем в 1, как наша вселенная до взрыва
\r\n превращаем в \n
Вырезаем html коментарии
Дальше аккуратно вырезаем все тэги, кроме необходимых типа b strong h1 и т.п.
В оставшихся тэгах препарируем все атрибуты

Почти все.. в результате мы получаем из любого сайта уже портянку текста в котором попадаются разные менюшки, футеры и прочий хлам, как же это вырезать ?
Можно тупо короткие строки удалять, а можно разбить все это дело в массив и взять из массива только 1-2 самых толстых итема

Вуаля !

Универсальный рипер готов !
20 строк говнокода на PHP и бойлер — в помойку.





 



Сегодня: 2020.02.25
Рейтинг@Mail.ru