Сканируйте веб-сайт с помощью wget и ограничьте общее количество просканированных ссылок

Я хочу узнать больше о сканерах, поиграв с инструментом wget. Меня интересует сканирование веб-сайта моего отдела и поиск первых 100 ссылок на этом сайте. Пока что команда ниже - это то, что у меня есть. Как сделать так, чтобы поисковый робот останавливался после 100 ссылок?

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

GobiasKoffi 11.02.2011 источник

Ответы (2)

arrow_upward
2
arrow_downward

Вы не можете. wget не поддерживает это, поэтому, если вы хотите что-то подобное, вам придется написать инструмент самостоятельно.

Вы можете получить основной файл, проанализировать ссылки вручную и получить их одну за другой с ограничением в 100 элементов. Но это не то, что поддерживает wget.

Вы также можете взглянуть на HTTrack для сканирования веб-сайтов, у него есть несколько дополнительных опций для этого: http://www.httrack.com/

Wolph 11.02.2011

arrow_upward
0
arrow_downward

Создайте файл FIFO (mknod / tmp / httpipe p)
do a fork
- in the child do wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe
- в отце: читать построчно /tmp/httpipe
- проанализировать вывод =~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
- посчитать строки; после 100 строк просто закройте файл, он сломает трубу

Olivier Delouya 06.07.2016

Сканируйте веб-сайт с помощью wget и ограничьте общее количество просканированных ссылок

Ответы (2)

Похожие вопросы