Scrapy爬虫自动切换代理IP落地指南

925 阅读 0 评论 73 点赞

核心实现：Scrapy自动切换代理IP的下载中间件

完整中间件代码示例

你可以直接将以下功能完备的代理中间件代码复制到Scrapy项目的middlewares.py文件中：

# 在 middlewares.py 文件中
import requests
from scrapy.exceptions import IgnoreRequest
class DynamicProxyMiddleware:
    def __init__(self, proxy_pool_url, retry_times=3):
        # 代理池API地址
        self.proxy_pool_url = proxy_pool_url
        # 最大重试次数
        self.retry_times = retry_times
        # 缓存当前代理
        self.current_proxy = None
    @classmethod
    def from_crawler(cls, crawler):
        # 从 Scrapy 的 settings.py 中读取配置
        proxy_pool_url = crawler.settings.get('PROXY_POOL_URL')
        retry_times = crawler.settings.get('PROXY_RETRY_TIMES', 3)
        return cls(proxy_pool_url, retry_times)
    def get_proxy(self):
        """从API获取一个新的代理IP"""
        try:
            response = requests.get(self.proxy_pool_url, timeout=5)
            if response.status_code == 200:
                # 假设API直接返回代理IP字符串，如 '127.0.0.1:8080'
                proxy_ip = response.text.strip()
                if proxy_ip:
                    return f'http://{proxy_ip}'
        except Exception as e:
            print(f"获取代理失败: {e}")
        return None
    def process_request(self, request, spider):
        """在请求发送前，为其设置代理"""
        # 如果没有可用代理，就获取一个
        if not self.current_proxy:
            self.current_proxy = self.get_proxy()
        # 如果成功拿到代理，就设置到请求的meta中
        if self.current_proxy:
            request.meta['proxy'] = self.current_proxy
            spider.logger.info(f'使用代理: {self.current_proxy}')
    def process_response(self, request, response, spider):
        """处理响应，如果遇到访问受限状态码，则触发重试"""
        # 常见的访问受限状态码
        if response.status in [403, 429, 503]:
            spider.logger.warning(f'代理 {self.current_proxy} 触发网站访问频率控制或失效，状态码: {response.status}')
            # 清空当前代理，以便下次请求时获取新代理
            self.current_proxy = None
            # 获取重试次数
            retries = request.meta.get('proxy_retry_times', 0)
            if retries < self.retry_times:
                retries += 1
                request.meta['proxy_retry_times'] = retries
                # 创建一个新的请求对象进行重试
                new_request = request.copy()
                return new_request
            else:
                spider.logger.error(f'代理重试 {self.retry_times} 次后仍然失败，放弃请求: {request.url}')
        return response
    def process_exception(self, request, exception, spider):
        """处理请求过程中的异常（如超时、连接错误）"""
        spider.logger.warning(f'请求异常 ({exception})，将切换代理并重试: {request.url}')
        # 清空当前代理，触发切换
        self.current_proxy = None
        retries = request.meta.get('proxy_retry_times', 0)
        if retries < self.retry_times:
            retries += 1
            request.meta['proxy_retry_times'] = retries
            return request.copy()

关键方法作用解析

from_crawler：从Scrapy的settings.py中读取配置参数，实现中间件的灵活配置，无需硬编码代理池地址和重试次数。
get_proxy：对接代理服务API获取可用代理IP，是实现动态切换的核心数据来源。
process_request：在请求发送前为请求绑定当前代理IP，确保每次请求使用有效代理。
process_response：监控请求响应状态，若触发网站访问频率控制或代理失效，则清空当前代理并触发重试。
process_exception：处理请求超时、连接失败等异常，同样触发代理切换和重试逻辑。

项目配置与快速启用

修改settings.py参数

在项目的settings.py中完成以下配置，启用自定义代理中间件并设置相关参数：

# settings.py
# 1. 禁用默认的代理中间件，启用自定义中间件
DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.DynamicProxyMiddleware': 543,  # 替换为你的项目名
    'scrapy.downloadermiddlewares.proxy.ProxyMiddleware': None,
}
# 2. 配置代理服务API地址
PROXY_POOL_URL = "https://your-proxy-service-api.com/get"
# 3. 设置每个请求的最大代理重试次数
PROXY_RETRY_TIMES = 3
# 4. 启用自动限速，降低访问环境暴露风险
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1.0
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

对接代理服务API

上述配置中的PROXY_POOL_URL需要指向一个能返回可用代理IP的HTTP API接口，选择可靠的代理服务商能大幅提升代理的有效性和稳定性，减少无效请求。

优化技巧提升代理使用效率

增加代理有效性验证

在get_proxy方法中可增加代理验证步骤，比如用获取到的代理尝试访问http://httpbin.org/ip，确认代理能正常返回结果后再使用，避免将无效代理绑定到请求中，提升爬虫运行效率。

配合请求头优化策略

除了代理IP，网站的访问频率控制机制还会检测User-Agent等请求头，建议同时使用scrapy-fake-useragent等中间件随机轮换User-Agent，与代理中间件配合使用，进一步增强访问环境的一致性。

合理设置请求间隔

即使使用代理IP，也需避免超高频率发送请求，启用Scrapy的AUTOTHROTTLE扩展并设置合理的DOWNLOAD_DELAY，让爬虫行为更接近真实用户，降低触发网站访问频率控制的概率。

为什么爬虫场景可优先考虑青果网络的代理服务

对于需要长期稳定运行的Scrapy爬虫项目，选择可靠的代理服务商能大幅减少中间件的维护成本，青果网络的代理IP服务在多方面适配这类场景的需求：

千万级资源池保障调用稳定性

青果网络具备千万级资源池，国内代理IP资源覆盖200多个城市与地区，海外代理IP覆盖全球200多个国家与地区，能为爬虫提供充足的可用IP资源，避免因IP池资源不足导致的请求阻塞。

适配爬虫场景的灵活调度能力

针对爬虫的持续性请求需求，青果网络的代理IP服务可支持稳定调用，能适配不同频率的请求场景，配合自定义中间件的自动切换逻辑，进一步提升爬虫的运行连续性。

工程化接入与落地支持

青果网络提供标准化的API接口，可直接对接Scrapy中间件的PROXY_POOL_URL配置，无需额外的适配开发，降低接入成本，同时支持持续性业务使用需求，适合长期运行的爬虫项目。

总结

Scrapy中实现自动切换代理IP的核心是自定义下载中间件，通过在请求前注入代理、失败时切换重试的逻辑，有效提升爬虫的稳定性。配合代理有效性验证、请求头优化和合理的限速策略，能进一步增强访问环境的一致性、降低访问环境暴露风险。对于有长期稳定需求的爬虫项目，选择如青果网络这类具备海量资源和标准化接入能力的代理服务商，能大幅提升项目的落地效率与运行连续性。

常见问题解答

Q1：Scrapy自带的代理中间件可以实现自动切换吗？
A1：Scrapy默认的ProxyMiddleware仅支持静态配置单个代理IP，无法实现自动切换和失败重试逻辑，需要通过自定义下载中间件来实现动态切换功能。

Q2：代理IP的验证步骤是否有必要？
A2：非常有必要，直接从API获取的代理可能存在不可用的情况，增加验证步骤可以避免无效请求，减少爬虫的重试次数，提升整体运行效率。

Q3：使用代理IP时需要注意哪些合规事项？
A3：使用代理IP时需确保爬虫行为符合目标网站的robots协议，同时遵守相关法律法规，避免对目标网站造成服务器压力。青果网络的代理IP服务可提供使用过程中的合规支持，保障业务稳定运行。

青果网络代理IP - CTA Banner

企业级代理IP服务商

10年专注网络服务
千万级纯净 IP 池，覆盖全国390+城市
累计服务客户超8.5万

立即免费试用

// 青果网络企业级API示例
const config = {
  auth: "QGE_Enterprise_Key",
  region: "CN_ALL"
};

async function getProxy() {
  const res = await qgClient.fetch(config);
  console.log("Stable Connection.");
  return res.ip;
}