Есть в природе бойлеры, которые умеют рипать контент с любой страницы, но мне было лень разбираться что такое композер, автолоадер и даже стало лень дальше листать гугл в поисках примитивных решений. Написал свой.
Суть оказалась проста:
Надо вырезать все что ДО и после body
Вырезать любые вкрапления стилей и JavaScript т.к. они плайнтекстом могут лежать внутри тела html, в тэге. Короче убираем тоже.
Все пробелы сжимаем в 1, как наша вселенная до взрыва
\r\n превращаем в \n
Вырезаем html коментарии
Дальше аккуратно вырезаем все тэги, кроме необходимых типа b strong h1 и т.п.
В оставшихся тэгах препарируем все атрибуты
Почти все.. в результате мы получаем из любого сайта уже портянку текста в котором попадаются разные менюшки, футеры и прочий хлам, как же это вырезать ?
Можно тупо короткие строки удалять, а можно разбить все это дело в массив и взять из массива только 1-2 самых толстых итема
Вуаля !
Универсальный рипер готов !
20 строк говнокода на PHP и бойлер — в помойку.