Мне нужно просмотреть тысячи веб-сайтов с одинаковой структурой: у всех есть меню, заголовок, какой-то текст и рейтинг, как у блога. К сожалению, они также закодированы очень по-разному, а некоторые — вручную, поэтому я не могу повторно использовать селекторы CSS и, возможно, даже не полагаться на них.
Интересно, как я могу автоматически классифицировать их и сохранить то, что осталось от моих волос. Мое первое предположение — использовать lynx или какой-нибудь текстовый браузер, чтобы получить несколько блоков текста и классифицировать их в соответствии с их размером.
Знаете ли вы о лучшем или более сложном подходе?
Спасибо!