Дата публикации:

Пишем свой универсальный рипер контента с любого сайта


Есть в природе бойлеры, которые умеют рипать контент с любой страницы, но мне было лень разбираться что такое композер, автолоадер и даже стало лень дальше листать гугл в поисках примитивных решений. Написал свой. Суть оказалась проста: Надо вырезать все что ДО и после body Вырезать любые вкрапления стилей и JavaScript т.к. они плайнтекстом могут лежать внутри тела html, в тэге. Короче убираем тоже. Все пробелы сжимаем в 1, как наша вселенная до взрыва \r\n превращаем в \n Вырезаем html коментарии Дальше аккуратно вырезаем все тэги, кроме необходимых типа b strong h1 и т.п. В оставшихся тэгах препарируем все атрибуты Почти все.. в результате мы получаем из любого сайта уже портянку текста в котором попадаются разные менюшки, футеры и прочий хлам, как же это вырезать ? Можно тупо короткие строки удалять, а можно разбить все это дело в массив и взять из массива только 1-2 самых толстых итема Вуаля ! Универсальный рипер готов ! 20 строк говнокода на PHP и бойлер - в помойку.

Telegram канал о биржах ссылок
Видеочат рулетка