Scrapy代理IP自动切换：自定义中间件实现教程

1051 阅读 0 评论 27 点赞

Scrapy自动切换代理IP的核心实现思路

Scrapy引擎发起请求后，首先进入自定义代理中间件的process_request环节。若当前无可用代理，将调用代理池API获取新IP并暂存；若已有可用代理，则直接为请求设置代理参数。随后发送带代理的请求，若请求成功则返回响应正常处理；若请求失败（如出现403、503状态码或超时等），中间件会标记当前代理失效并清空暂存，若重试次数未超限则生成新请求重新进入队列，超限则放弃请求并记录日志。

自定义代理中间件的具体实现步骤

编写核心：代理中间件

在Scrapy项目的middlewares.py文件中，创建包含自动切换和失效处理逻辑的中间件类：

# middlewares.py

import requests
from scrapy.downloadermiddlewares.proxy import ProxyMiddleware

class DynamicProxyMiddleware(ProxyMiddleware):
    def __init__(self, proxy_api_url, retry_times=3):
        # 代理池API地址，用于获取新IP
        self.proxy_api_url = proxy_api_url
        # 单个请求的最大重试次数
        self.retry_times = retry_times
        # 暂存当前使用的代理
        self.current_proxy = None

    @classmethod
    def from_crawler(cls, crawler):
        # 从Scrapy的settings.py中读取配置
        api_url = crawler.settings.get('PROXY_API_URL')
        retry = crawler.settings.get('PROXY_RETRY_TIMES', 3)
        return cls(api_url, retry)

    def get_proxy_from_api(self):
        """从API获取一个可用代理"""
        try:
            response = requests.get(self.proxy_api_url, timeout=5)
            if response.status_code == 200:
                # 假设API直接返回IP:PORT格式的文本，如 '192.168.1.1:8080'
                proxy_ip = response.text.strip()
                return proxy_ip
        except Exception as e:
            print(f"获取代理失败: {e}")
        return None

    def process_request(self, request, spider):
        """为每个请求设置代理"""
        # 1. 如果没有可用代理，则获取一个新的
        if not self.current_proxy:
            self.current_proxy = self.get_proxy_from_api()

        # 2. 为当前请求设置代理
        if self.current_proxy:
            request.meta['proxy'] = f'http://{self.current_proxy}'
            # 建议设置一个合理的超时时间，避免代理过慢
            request.meta['download_timeout'] = 10

    def process_response(self, request, response, spider):
        """检查响应，判断代理是否触发访问限制"""
        # 常见的触发访问限制的HTTP状态码
        if response.status_code in [403, 429, 503]:
            print(f"代理 {self.current_proxy} 可能触发访问限制，状态码: {response.status_code}，准备切换")
            self.current_proxy = None  # 清空当前代理，下次请求时会获取新的

            # 重试逻辑：判断重试次数
            retries = request.meta.get('retry_times', 0)
            if retries < self.retry_times:
                request.meta['retry_times'] = retries + 1
                # 返回一个新的请求对象进行重试
                return request.copy()
            else:
                spider.logger.warning(f"请求 {request.url} 重试 {self.retry_times} 次后依然失败")
        return response

    def process_exception(self, request, exception, spider):
        """处理请求过程中的异常，如超时、连接错误等"""
        print(f"请求异常: {exception}，代理 {self.current_proxy} 可能失效，准备切换")
        self.current_proxy = None

        retries = request.meta.get('retry_times', 0)
        if retries < self.retry_times:
            request.meta['retry_times'] = retries + 1
            return request.copy()
        return None

配置与激活中间件

编写好中间件后，在项目的settings.py文件中配置使其生效：

# settings.py

# 1. 激活自定义的代理中间件，并禁用Scrapy内置的代理中间件

DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.DynamicProxyMiddleware': 543,  # 替换为你的项目名
    'scrapy.downloadermiddlewares.proxy.ProxyMiddleware': None,   # 必须禁用它
}

# 2. 设置代理服务商提供的API地址

PROXY_API_URL = 'https://api.provider.com/get?api_key=YOUR_KEY&num=1'

# 3. 设置单个请求的最大重试次数

PROXY_RETRY_TIMES = 3

# 4. (可选) 设置下载延迟和自动限速，进一步降低触发访问限制的风险

DOWNLOAD_DELAY = 2  # 请求间隔，模拟人类行为
RANDOMIZE_DOWNLOAD_DELAY = True  # 随机化延迟
AUTOTHROTTLE_ENABLED = True  # 开启自动限速

高级优化策略

基础版本已能满足需求，但在生产环境中可通过以下优化提升爬虫健壮性：

本地代理池维护：每次请求调用API获取IP效率较低，更优方案是在本地维护代理池，通过后台任务定期从代理服务端拉取并验证一批IP存入池中，中间件直接从本地池获取IP，提升调用速度同时降低对服务端API的依赖。
精细的访问限制检测：除了检查HTTP状态码，部分网站会返回自定义的访问限制页面（状态码为200但内容包含特定限制提示），可在process_response环节中，通过检测响应文本特征触发代理切换。
按需选择切换策略：根据业务场景调整代理切换逻辑：按请求切换适合高频抓取单页面的场景，能最大程度分散访问风险；定时切换适合需要保持登录会话的场景，可在固定时间窗口内使用同一代理，到期后再切换。
使用隧道代理服务：选择商业代理服务商提供的隧道代理服务，只需在Scrapy中设置固定隧道域名作为代理，服务端会自动完成IP的获取与轮换，代码实现更简洁高效。

企业级Scrapy场景下的代理IP服务选择

对于需要长期稳定运行的企业级Scrapy爬虫业务，选择可靠的代理IP服务商是核心保障之一，青果网络作为企业级代理IP服务提供商，能为这类场景提供适配性支持：

资源覆盖与调用稳定性

青果网络拥有国内日更600W+纯净IP资源池，覆盖国内200多个城市与地区；同时具备海外2000W+资源池，覆盖全球300多个国家与地区。充足的资源储备能满足不同地域、不同规模的Scrapy爬虫业务需求，确保代理IP的调用稳定性。

适配Scrapy场景的灵活接入

青果网络支持API接口调用模式，可直接与Scrapy自定义中间件对接，快速实现代理IP的自动获取与切换。同时，针对企业级场景提供的隧道代理服务，能进一步简化Scrapy的配置流程，无需复杂的中间件开发即可实现IP自动轮换。

业务连续性保障

针对Scrapy爬虫可能遇到的IP失效、访问限制等问题，青果网络的代理IP服务具备实时状态监测能力，能快速筛选出可用IP，减少因代理失效导致的请求中断，保障业务的连续性运行。

合规与安全支持

在代理IP使用过程中，青果网络提供合规的安全保障机制，确保爬虫业务在合法合规的范围内运行，避免因代理使用不当引发的业务风险。

总结

在Scrapy中实现自动切换代理IP，核心是通过自定义下载中间件完成IP分配、失效检测与重试逻辑，结合本地代理池维护、精细访问限制检测等优化策略，能有效提升爬虫的稳定性。对于企业级场景，选择专业的代理IP服务商，可进一步强化资源支撑、接入灵活性与业务连续性保障，满足长期稳定的爬虫业务需求。

常见问题解答

Q1：Scrapy自定义代理中间件需要禁用内置代理中间件吗？
A1：是的，必须禁用Scrapy内置的ProxyMiddleware，避免与自定义中间件产生冲突，确保自定义逻辑能够正常生效。

Q2：企业级Scrapy爬虫选择代理IP时需要关注哪些要点？
A2：需要关注资源覆盖范围、调用稳定性、接入灵活性以及合规安全保障，这些要点直接影响爬虫业务的长期稳定运行。

Q3：青果网络的代理IP服务是否支持Scrapy框架的对接？
A3：是的，青果网络支持API接口调用模式，可直接与Scrapy自定义中间件对接，同时还提供隧道代理服务，能简化Scrapy的配置流程，实现IP自动轮换。

青果网络代理IP - CTA Banner

企业级代理IP服务商

10年专注网络服务
千万级纯净 IP 池，覆盖全国390+城市
累计服务客户超8.5万

立即免费试用

// 青果网络企业级API示例
const config = {
  auth: "QGE_Enterprise_Key",
  region: "CN_ALL"
};

async function getProxy() {
  const res = await qgClient.fetch(config);
  console.log("Stable Connection.");
  return res.ip;
}