AgentQL представляет собой новый подход к веб-скрейпингу, позволяющий пользователям извлекать данные с веб-сайтов с неструктурированным форматом, точно определяя структуру желаемой информации. Это обеспечивает согласованное и структурированное извлечение данных даже с веб-сайтов с динамическим контентом или часто меняющимися макетами.
В этом подробном руководстве мы рассмотрим процесс реализации сервера AgentQL MCP в Claude Desktop. Мы будем использовать встроенные инструменты визуализации Claude для изучения извлеченных данных. Наш конкретный пример будет включать в себя скрейпинг страницы результатов поиска Amazon для книг по искусственному интеллекту, извлечение ключевых деталей, таких как цена, рейтинг и количество отзывов.
Шаг 1: Настройка зависимостей
Прежде чем погрузиться в реализацию, нам необходимо убедиться, что все необходимые зависимости установлены и настроены. Это включает в себя настройку Node.js, Claude Desktop и получение ключа API AgentQL.
Node.js
Node.js - это среда выполнения JavaScript, которая позволяет нам выполнять код JavaScript вне веб-браузера. Это необходимо для запуска сервера AgentQL с помощью npx
, программы запуска пакетов, которая поставляется в комплекте с Node.js.
Чтобы установить Node.js, выполните следующие действия:
- Посетите официальный веб-сайт Node.js: nodejs.org.
- Загрузите последнюю версию LTS (Long Term Support) Node.js.
- Запустите установщик.
- Примите лицензионное соглашение и пройдите через мастер установки.
- Оставьте все настройки по умолчанию и завершите установку.
После установки убедитесь, что Node.js и npm
(Node Package Manager) установлены правильно, открыв свой терминал или командную строку и выполнив следующие команды: