Публикации по теме 'scrapy'
Веб-скрейпинг финансовых данных с помощью Scrapy + Yahoo Finance
Часть III: Пагинация
Введение:
Добро пожаловать в третью и последнюю часть руководства по парсингу yahoo finance / scrapy. Если вы не читали предыдущие части, я рекомендую вам сделать это, щелкнув здесь ( часть-I , часть-II ), поскольку следующий учебник основан на них.
На данный момент мы загрузили самую активную страницу акций на Yahoo Finance (URL- https://finance.yahoo.com/most-active/ ) и удалили все акции, которые появляются на странице 1 в файле .csv. В этом руководстве..
Интеграция API Scrapy и AutoExtract
Мы только что выпустили новое промежуточное ПО Scrapy с открытым исходным кодом , которое упрощает интеграцию AutoExtract в существующий паук Scrapy. Если вы еще не слышали об AutoExtract , это инструмент веб-скрейпинга на основе искусственного интеллекта, который автоматически извлекает данные с веб-страниц без необходимости написания кода. Узнайте больше об AutoExtract здесь .
Установка
В этом проекте используется и. Виртуальная среда настоятельно рекомендуется.
$ pip..
Вопросы по теме 'scrapy'
Scrapy Не удалось найти паука Ошибка
Я пытался запустить простого паука с помощью scrapy, но продолжаю получать ошибку:
Could not find spider for domain:stackexchange.com
когда я запускаю код с выражением scrapy-ctl.py crawl stackexchange.com . Паук выглядит следующим образом:...
2875 просмотров
schedule
18.11.2023
Запуск команд, отличных от django, из подкаталога для проекта Django, размещенного на Heroku?
Я развернул приложение Django на Heroku. Приложение само по себе работает нормально. Я могу запускать такие команды, как heroku run python project/manage.py syncdb и heroku run python project/manage.py shell , и это работает хорошо.
В моем...
777 просмотров
schedule
15.12.2023
Запустите несколько пауков Scrapy одновременно, используя scrapyd
Я использую scrapy для проекта, в котором я хочу очистить несколько сайтов (возможно, сотни), и мне нужно написать конкретного паука для каждого сайта. Я могу запланировать одного паука в проекте, развернутом в scrapyd, используя:
curl...
7043 просмотров
schedule
20.09.2022
Захват кодов состояния http с помощью паука scrapy
Я новичок в скрапе. Я пишу паука, предназначенного для проверки длинного списка URL-адресов на наличие кодов состояния сервера и, при необходимости, на какие URL-адреса они перенаправляются. Важно, если есть цепочка редиректов, мне нужно знать код...
7870 просмотров
schedule
17.02.2024
Как увеличить скорость загрузки в scrapy?
Я использую scrapy для параллельной загрузки страниц из разных доменов. Мне нужно загрузить сотни тысяч страниц, поэтому важна производительность.
К сожалению, когда я профилировал скорость скрапинга, я получаю только пару страниц в секунду....
5152 просмотров
schedule
25.10.2023
Не могу запустить Scrapyd
Когда я хочу запустить scrapyd внутри проекта scrapy. Я получаю сообщение об ошибке:
server: error: Scrapyd is not available in this system
Я устанавливаю scrapy через исходный пакет, команда scrapy version -v выводит следующие сообщения:...
527 просмотров
schedule
16.05.2024
Скрап-сканирование Несколько XPathSelector на одной странице
Я пытаюсь извлечь данные из разных «таблиц» внутри «Основной таблицы» на той же странице (тот же URL). Поля элементов имеют одинаковую XPath/одинаковую структуру во всех подтаблицах, поэтому проблема, с которой я столкнулся, заключается в том, чтобы...
1947 просмотров
schedule
05.11.2022
Crawlspider ничего не царапает
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
#scrapy crawl dmoz -o items.json -t json
from...
654 просмотров
schedule
06.03.2024
Скрабирование из скрипта всегда блокирует выполнение скрипта после очистки
Я следую этому руководству http://doc.scrapy.org/en/0.16/topics/practices.html#run-scrapy-from-a-script для запуска scrapy из моего скрипта. Вот часть моего скрипта:
crawler = Crawler(Settings(settings))
crawler.configure()
spider =...
9180 просмотров
schedule
01.08.2022
Отклонить правило Scrapy
Как я могу запретить очистку определенных частей веб-сайта с помощью правил в Scrapy.
Я хочу, чтобы Scrapy сканировал ссылки, соответствующие www.example.com/help/nl/, и запрещал все ссылки, соответствующие www.example.com/help/en/ и...
1414 просмотров
schedule
08.03.2024
Запустите scrapy с несколькими пауками, не блокируя процесс
Я пытаюсь запустить scrapy spider в отдельном скрипте, и когда я выполняю этот скрипт в цикле (например, запускаю того же паука с разными параметрами), я получаю ReactorAlreadyRunning . Мой фрагмент:
from celery import task
from...
2321 просмотров
schedule
30.08.2022
Scrapy: как вручную вставить запрос из обратного вызова события spider_idle?
Я создал паука и связал метод с событием spider_idle.
Как добавить запрос вручную? Я не могу просто вернуть элемент из синтаксического анализа — синтаксический анализ в этом случае не выполняется, так как все известные URL-адреса были...
3833 просмотров
schedule
21.08.2022
Поддерживает ли Scrapy JavaScript для веб-сканирования?
Я слышал, что scrapy не поддерживает javascript. Я хотел знать, могу ли я использовать scrapy для обхода ссылок с помощью crawlspider на наш сайт интрасети, на нашем сайте интрасети есть javascript, и я полагаю, что он генерируется, когда вы...
1531 просмотров
schedule
30.06.2022
MySQL не сохраняет данные, которые очищаются
Я сделал небольшой проект, используя Scrapy. Дело в том, что мой скрапер сканирует страницы и парсит данные. Но он не сохраняется в моей базе данных. Я использую MySQL в качестве моей базы данных.
Я предполагаю, что есть что-то, что я упускаю в...
342 просмотров
schedule
25.11.2023
селен с scrapy для динамической страницы
Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так:
начинается со страницы product_list с 10 продуктами
нажатие на кнопку «Далее» загружает следующие 10 продуктов...
96508 просмотров
schedule
31.03.2024
Невозможно перейти по ссылкам в Scrapy
Сейчас я начинаю со Scrapy, и я понял, как брать нужный мне контент со спортивной страницы (имя и команда футболиста), но мне нужно следовать ссылкам в поисках других команд, на каждой странице команды есть ссылка на страницу игроков, структура...
165 просмотров
schedule
13.11.2022
Как использовать PyCharm для отладки проектов Scrapy
Я работаю над Scrapy 0.20 с Python 2.7. Я обнаружил, что в PyCharm есть хороший отладчик Python. Я хочу протестировать на нем своих пауков Scrapy. Кто-нибудь знает, как это сделать, пожалуйста?
Что я пробовал
Actually I tried to run the spider...
43247 просмотров
schedule
03.07.2022
Проблема с установкой scrapy на ubuntu
Я недавно перешел на Linux и заинтересован в использовании scrapy.
jeremy@jeremy-Lenovo-G580:~/Dropbox/projects/scrapy_stuff$ uname -a
Linux jeremy-Lenovo-G580 3.5.0-52-generic #79~precise1-Ubuntu SMP Fri Jul 4 21:03:49 UTC 2014 x86_64 x86_64...
6477 просмотров
schedule
04.05.2024
Scrapy: концепция правила SgmlLinkExtractor
Подскажите, пожалуйста, как написать правило SgmlLinkExtractor Я запутался и не могу разобраться в документах на английском языке.
Я хочу сканировать Интернет с большим количеством страниц И правило таково:...
1408 просмотров
schedule
25.01.2024
Извлечение текста/параметра *внутри* тега
У меня есть следующий исходный код, из которого я пытаюсь извлечь нужную информацию:
<div id="PaginationBottom" class="pagination">
<a href="#" data-page="2" title="page 2 of 31" >2</a>
<a href="#" data-page="3"...
51 просмотров
schedule
28.11.2023