容量快速评估:峰值 QPS、带宽与 pps 的判断方法 水平扩展
围绕“容量快速评估:峰值 QPS、带宽与 pp并发优化”,本文从业务风险、架构要点、落地流程与验收指标四个维度拆解,帮助你快速形成可执行的防护方案。
核心能力与落地要点
- FD 使用率告警:文件描述符耗尽的预防与排障思路:从识别、缓解到回溯三段式闭环,确保可观测、可回滚、可量化。
- CPU 打满怎么排:火焰图与热点路径优化:从识别、缓解到回溯三段式闭环,确保可观测、可回滚、可量化。
- 高可用部署:多活与主备的取舍:从识别、缓解到回溯三段式闭环,确保可观测、可回滚、可量化。
- KeepAlive 优化:连接复用与超时配置的调参清单:从识别、缓解到回溯三段式闭环,确保可观测、可回滚、可量化。
当站点进入稳定期后,可以把策略强度从“固定阈值”升级为“指标驱动”。例如以登录成功率、下单成功率、P95 延迟作为主指标,当指标恶化时自动加严;指标恢复后自动放松,减少长期误伤。
日志策略要防止“被打就写爆磁盘”。可以对攻击流量做采样、对重复 UA/Path 做聚合统计,并把原始日志异步写入。关键是:保留足够的取证信息,同时避免 I/O 成为新的单点。
对低频慢刷,短窗口限流几乎无效。可以引入更长窗口的配额(例如小时级、天级),并结合行为序列(例如连续尝试登录、连续命中高价值路径)的风险加权。
告警触发后要有动作建议:例如“提升限流等级”“开启挑战”“切高防”“临时封禁网段”。告警如果只是提示信息,没有可执行动作,就会在值班时被忽略,最后变成事故。
部署与验收清单
- 可观测性:建立访问日志、错误率、延迟与拦截率的监控面板。
- 应急预案:灰度开关、黑白名单与回滚策略提前演练。
- 持续优化:根据真实流量画像迭代规则,避免误伤与漏拦。
- 链路分层:CDN/WAF/高防/源站分层部署,避免单点被打穿。
常见问题
Q:如何避免“防护开得越狠越误伤”?
A:用指标驱动策略:先观测再收紧,优先做分层与限速,再逐步加入更细粒度规则。
Q:为什么仅靠单一防护组件不够?
A:真实攻击往往组合出现(洪峰、慢速、绕过、应用层混合),需要入口、协议、业务、数据多个层面的联动。