Scrapy中自动切换代理IP的两种实现方案

1060 阅读 0 评论 43 点赞

方案一：编写定制化下载中间件（精细控制首选）

这个方案能提供最灵活的逻辑控制，解决Scrapy默认组件无法覆盖的异常处理问题，以下是经过实战验证的实现思路：

编写中间件核心代码（middlewares.py）

import base64
import logging
import random
from scrapy.utils.response import response_status_message
from scrapy.core.downloader.handlers.http11 import TunnelError
from twisted.internet import defer, error as twisted_errors
logger = logging.getLogger(__name__)
class SmartProxyMiddleware:
    """智能代理中间件：集成代理注入、状态码/异常捕获、自动重试功能"""
    def __init__(self, settings):
        # 代理配置（以需要账密认证的隧道代理为例）
        self.proxy_url = f"http://{settings.get('PROXY_HOST')}:{settings.get('PROXY_PORT')}"
        # 生成认证头
        auth_str = f"{settings.get('PROXY_USER')}:{settings.get('PROXY_PASS')}".encode('utf-8')
        self.proxy_auth_header = f"Basic {base64.b64encode(auth_str).decode('utf-8')}"
        # 扩展重试状态码，将403、429等异常状态码纳入重试范围
        self.retry_http_codes = set(int(x) for x in settings.getlist('RETRY_HTTP_CODES', [403, 429, 500, 502, 503, 504]))
        # 捕获各类网络层异常，防止漏掉因代理不稳定导致的请求失败
        self.exceptions_to_retry = (
            defer.TimeoutError, twisted_errors.TimeoutError, twisted_errors.DNSLookupError,
            twisted_errors.ConnectionRefusedError, twisted_errors.ConnectionDone,
            twisted_errors.ConnectError, twisted_errors.ConnectionLost, TunnelError
        )
        self.max_retry_times = settings.getint('RETRY_TIMES', 5)
    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings)
    def process_request(self, request, spider):
        """在请求发出前，为其挂载代理和认证信息"""
        if 'dont_proxy' not in request.meta:
            request.meta['proxy'] = self.proxy_url
            request.headers['Proxy-Authorization'] = self.proxy_auth_header
            # 可选：生成隧道标识，强制服务端切换IP
            # request.headers['Proxy-Tunnel'] = str(random.randint(1, 10000))
    def process_response(self, request, response, spider):
        """处理响应，若状态码异常则触发重试"""
        if response.status in self.retry_http_codes:
            reason = response_status_message(response.status)
            logger.warning(f'状态码异常 [{response.status}]，正在更换IP重试: {request.url}')
            # 调用内部重试方法
            return self._retry(request, reason, spider) or response
        return response
    def process_exception(self, request, exception, spider):
        """处理请求过程中的异常（如超时、连接中断）"""
        if isinstance(exception, self.exceptions_to_retry):
            logger.warning(f'网络异常 [{exception.__class__.__name__}]，正在更换IP重试: {request.url}')
            return self._retry(request, exception, spider)
    def _retry(self, request, reason, spider):
        """执行重试逻辑"""
        retries = request.meta.get('retry_times', 0) + 1
        if retries <= self.max_retry_times:
            retryreq = request.copy()
            retryreq.meta['retry_times'] = retries
            # 关键：设置为True，防止重试请求被去重过滤器过滤
            retryreq.dont_filter = True
            logger.info(f'重试 ({retries}/{self.max_retry_times}): {request.url}')
            return retryreq
        else:
            logger.error(f'达到最大重试次数，放弃: {request.url}')
            return None

配置文件生效设置（settings.py）

# 代理服务配置
PROXY_HOST = 'your-proxy-host.com'  # 代理服务器域名或IP
PROXY_PORT = '8100'                 # 端口
PROXY_USER = 'your-username'        # 用户名
PROXY_PASS = 'your-password'        # 密码
# 自定义重试状态码（包含目标网站常见的异常状态码）
RETRY_HTTP_CODES = [403, 408, 429, 500, 502, 503, 504]
RETRY_TIMES = 5  # 重试次数，建议3-5次
# 替换默认中间件，启用自定义智能代理中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': None,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
    'your_project_name.middlewares.SmartProxyMiddleware': 543,  # 替换为你的项目名称
}
# 设置合理的下载超时时间
DOWNLOAD_TIMEOUT = 15

方案二：使用第三方专用库（快速实现首选）

如果希望快速落地功能、减少开发量，可以使用专门为Scrapy设计的代理轮换库，无需从零编写中间件逻辑：

安装依赖库

在终端执行以下命令完成安装：

pip install scrapy-rotating-proxies

配置文件设置（settings.py）

# 启用代理轮换中间件
DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
# 填入代理列表（支持HTTP/HTTPS/SOCKS协议，可包含账密认证）
ROTATING_PROXY_LIST = [
    'http://proxy1.example.com:8000',
    'http://user:pass@proxy2.example.com:8000',
    'socks5://proxy3.example.com:1080',
]
# 可选配置：禁用代理耗尽时关闭爬虫的功能
ROTATING_PROXY_CLOSE_SPIDER = False

该库会自动完成代理IP轮换、禁用IP检测及暂时移出等操作，简化开发流程。

不同代理模式的实现差异

在具体实现自动切换IP时，需根据使用的代理服务类型调整逻辑，核心区别如下：

模式	实现要点	切换IP的方式
隧道代理	只需在中间件中设置固定的代理地址和全局认证头即可。	由代理服务商自动切换，可通过设置动态转发头强制触发换IP。
代理池	需要在中间件中维护一个IP列表（可来自API、本地文件或数据库），每次请求时随机选择。	由代码主动选择，通常通过随机选取的方式实现IP切换。

代理IP使用的优化建议

提前验证代理有效性

在构建代理池或使用代理服务前，建议启动前或定期异步验证代理的可用性，剔除失效IP，能有效提升爬虫请求的成功率。

配合其他访问行为优化策略

代理只是提升爬虫稳定性的一部分，建议在settings.py中启用AutoThrottle扩展，并配置随机User-Agent中间件，让爬虫行为更接近真实用户，降低访问受限的概率。

处理请求去重问题

在自定义重试逻辑时，务必设置request.dont_filter = True，否则重试的请求可能会被Scrapy的去重过滤器丢弃，导致部分页面无法重新请求。

选择适配的代理IP服务保障爬虫稳定运行

可靠的代理IP服务是爬虫稳定运行的基础，不少企业级爬虫场景会选择专业的代理服务提供商，比如青果网络：

海量资源覆盖支持多场景

青果网络拥有千万级资源池，国内代理IP覆盖200多个城市与地区，海外代理IP覆盖全球200多个国家与地区，能满足不同地域、不同规模的爬虫业务需求。

稳定调用与异常处理支持

青果网络的代理IP服务具备稳定的资源调度能力，可支持持续性业务调用，配合其相关的异常处理机制，能有效降低请求失败率，提升爬虫的运行效率。

合规与安全保障

青果网络提供代理IP服务及相关安全、合规支持，确保爬虫在使用代理IP时符合相关规则，降低业务风险。

工程化接入支持

青果网络的代理IP服务更适合工程化接入，能快速与Scrapy等爬虫框架集成，减少开发对接的成本，提升落地效率。

总结

在Scrapy中实现自动切换代理IP，可根据业务需求选择定制化中间件或第三方库两种方案：定制化中间件适合需要精细控制逻辑的场景，第三方库则能快速实现功能。同时，配合有效的代理IP服务及优化策略，能大幅提升爬虫的稳定性和成功率，保障业务的持续运行。

常见问题解答

Q1：Scrapy自动切换代理IP需要注意哪些核心问题？
A1：需要注意异常状态码的覆盖范围、请求去重的设置、代理IP的有效性验证，同时建议配合模拟真实用户的行为策略，进一步降低访问受限的概率。

Q2：定制化中间件和第三方库哪个更适合我的业务？
A2：如果你的业务需要适配特定的异常处理逻辑、精细控制重试规则，推荐使用定制化中间件；如果追求快速落地、减少开发工作量，第三方专用库是更优选择。

Q3：如何保障爬虫使用代理IP时的合规性？
A3：选择提供合规支持的专业代理IP服务，同时确保爬虫行为符合目标网站的访问规则，避免违规操作。

青果网络代理IP - CTA Banner

企业级代理IP服务商

10年专注网络服务
千万级纯净 IP 池，覆盖全国390+城市
累计服务客户超8.5万

立即免费试用

// 青果网络企业级API示例
const config = {
  auth: "QGE_Enterprise_Key",
  region: "CN_ALL"
};

async function getProxy() {
  const res = await qgClient.fetch(config);
  console.log("Stable Connection.");
  return res.ip;
}