实战解析,国投证券负载均衡智能运维平台建设之路
国投证券负载均衡智能运维平台建设
一、项目背景
随着金融行业信息化程度的不断提高,证券公司的业务系统日益复杂,用户规模不断扩大,对系统稳定性和性能的要求也越来越高。国投证券作为一家大型证券公司,其业务系统面临着巨大的压力。为了提高系统可用性、优化资源利用、降低运维成本,国投证券决定建设负载均衡智能运维平台。
二、项目目标
1. 提高系统可用性:通过负载均衡技术,实现业务系统的无单点故障,提高系统可用性。
2. 优化资源利用:合理分配服务器资源,提高资源利用率,降低运维成本。
3. 提高运维效率:实现自动化运维,降低人工干预,提高运维效率。
4. 提升用户体验:保证业务系统稳定运行,提升用户满意度。
三、平台架构
1. 负载均衡层:采用LVS、Nginx等负载均衡技术,实现七层负载均衡,提高系统可用性。
2. 应用层:部署业务系统,包括交易系统、行情系统、客户服务系统等。
3. 数据库层:部署数据库系统,包括关系型数据库和NoSQL数据库,保证数据安全与一致性。
4. 监控层:采用Zabbix、Prometheus等监控工具,实时监控系统性能和资源使用情况。
5. 运维自动化层:采用Ansible、SaltStack等自动化运维
相关内容:
文 / 国投证券股份有限公司 梁德汉 何洲星 叶奔发 王锦贤 李超
随着证券行业的快速发展和数字化转型的推进,券商的网络正面临着庞大的规模、复杂的架构和快速变化的需求。在这样的背景下,传统的人工手动网络操作已经无法满足业务的高效性、可扩展性和安全性的要求。因此,网络自动化成为了不可或缺的解决方案。从2019年开始国投证券开始着手部署网络自动化,并于2020年自研落地一套网络自动化平台,该平台通过自动化的配置、部署和管理防火墙和路由交换设备,提高了资源利用率并降低了人力成本,实现了快速部署和灵活响应需求的能力。在创新的技术进步推动下,网络自动化正日益成为网络管理和运维的重要趋势。
近年来,“两地三中心”IT架构已成为金融行业的标准架构。这种架构要求金融机构的核心业务能够在三个数据中心同时发布,以实现相互容灾、地域就近访问和高可用部署。对于网络运维人员来说,他们不仅面临着来自复杂路由交换设备和防火墙设备的压力,还有来自负载均衡设备在业务流量调度中扮演关键角色所带来的挑战。这些挑战涉及全局负载均衡、互联网多线路和多协议栈接入、业务数据的加解密、业务路由转发以及各数据中心之间的业务流量调度切换等场景。
为了提升IT运维水平,确保业务连续性、系统稳定性、应用可用性和业务安全性,国投证券积极持续推进网络自动化平台的建设。本文将介绍国投证券在负载均衡设备运维场景中网络自动化平台的应用建设情况。
背景与需求
负载均衡设备在数据中心中承担着关键的业务流量调度任务,与应用之间的联系密不可分。因此,对负载均衡设备的运维管理工作成为确保业务稳定运行的关键因素。日常的负载均衡运维工作涉及多个方面,包括多品牌资产管理、巡检备份、业务变更、启停切换、监控告警、排障保障以及跨部门协同工作等。随着业务系统数量的快速增长,负载均衡设备的数量增加、品牌异构性和部署场景的复杂性等问题逐渐凸显,传统的人工运维方式已无法适应,体现在以下几个方面:
1.缺乏统一管理
公司现有近百台负载均衡设备,应用类型涵盖全局负载、本地服务器负载以及多数据中心部署的复杂架构,设备管理分散,重复繁琐的运维操作占据大量的人力与时间并且难以实现批量作业,导致管理质量不佳,运维效率低下。
同时,伴随多品牌的引入,异构多品牌设备存在跨品牌、跨平台、跨技术栈的痛点,不仅增加运维团队的学习与适应成本,整体联动运维难度也同样增高。
2.缺乏闭环流程
传统人工运维过程,运维界面不清晰,管控力度薄弱,运维操作缺乏认证审计,如出现问题无法溯源、追责、回滚。
人工运维在跨部门协作上,存在需求沟通、需求转化环节,并且人工运维操作分散,从业务提单、审批到运维变更部署的过程中流程割裂无法形成全流程自动化的闭环,导致协作效率低,出错风险率高。
3.缺乏全局视角
随着设备规模的增长、业务系统的增加,客户体验的优化、人工梳理业务逻辑工作量和难度不断加大,无法实时保证业务逻辑关联关系记录整理的准确性。也无法在运维故障排障环节动态联动监控指标提供快速、直接、有效的支持。
人工梳理的业务逻辑列表或图表,难以协同共享,难以按需提供给相关领导、业务部门、开发部门等,无法赋予他们自主消费、自主服务的能力,导致对运维部门的深度依赖,更加重运维人员的压力,影响业务体验。
为了提高运维效率并减少人工错误的风险,国投证券着手进行负载均衡智能运维平台的建设。该平台旨在赋予运维人员高效、安全和智能的运维能力,以确保运维工作的顺利进行。在选择方案时,国投证券进行了市场调研,评估了成熟的产品解决方案,并结合自身的成本分析,最终选择了联合开发的方式来构建一个平台化、自动化和可视化的负载均衡智能运维平台。这个平台的目标是解放人力,实现向高价值运维转型,提高质量和效率。
业务成果
平台于2022年11月立项,2023年10月完成系统上线,取得如下成果。
1.统一管控平台化
平台化是智能运维建设的重要方向。中国证监会针对证券交易网络系统的安全性问题,制定了信息系统安全规范,要求前后台应用安全分离、交易区与非交易区模块安全分离,因此基于安全合规的要求,平台采用了两网隔离部署架构,使得办公网和业务网能够同时对业务用户和运维人员开放访问。同时,通过安全技术实现了两网数据的安全交互。
该平台以跨品牌资产及配置的统一管控为基础,实现对全网负载均衡设备的统一管理。它能够自动识别设备的名称、型号、版本、序列号等信息,并整合所有负载均衡设备的资产数据和配置数据。该平台提供了一系列负载均衡设备相关的运维功能,包括自动发现、设备/业务资产/配置的集中管理、增删改查、监控、巡检、备份、漏洞扫描、合规检查、统计报表、业务切换、业务可视化、业务发布与编排、权限管理、操作审计、流程审核等。通过深入了解各品牌负载均衡的特性、使用场景、共同点和差异,该平台实现了对国投证券现有存量的多品牌负载均衡设备的统一化适配,并具备了兼容后续可能增加新品牌设备的扩展能力。

图1 两网隔离部署图
2.作业全流程自动化
在智能运维建设中,自动化是核心要素,流程和业务编排是统一自动化的核心价值。该平台专注于自动化能力的建设,涵盖各类复杂业务场景下的配置下发等运维工作。当前业务分为互联网、内网和容器网络,并且每个网络又分为多个设备集群区域。一个业务上线涉及多个运营商、多个数据中心、多层架构和多个可用区的复杂配置。平台通过低代码自定义应用编排引擎,实现运维场景的快速构建能力,以标准化和规范化的方式快速生成图形化的作业模板。通过图形化界面填写关键业务信息(如IP、端口等),可以在几分钟内完成多层级关联设备的自动编排与配置。
此外,平台还具备预校验机制,例如名称和参数设置等。为了确保部署效果,应用编排部署支持部署前后配置对比、部署轨迹和历史版本查看。它还支持基于历史配置的回滚、操作审计和部署日历等功能,以避免人工操作中的错误,降低运维风险,有效保障业务的连续性。在提高效率的同时,平台也兼顾合规审计,与现有运维平台成熟规范的流程审批方式保持一致,横向打通与公司统一流程平台、单点登录等系统的接口,按要求标准化对接适配。结合平台强大的场景化能力,实现了从工单发起、审核、资源分配、配置生成、复核、预配置、预校验、部署、验证(回退)的全流程自动化,以减少或优化流程环节中的人工干预,提升多人协作与信息实时同步的能力,工作进度与完成效果一目了然,提高运维与沟通效率。

图2 负载均衡智能运维平台架构图
3.多运维场景可视化
可视化是智能运维建设的另一个重要方向,且负载均衡又是与业务强相关的核心设备,在复杂的网络环境架构中,传统的人工梳理、人工分析、故障排查耗时长,已无法满足快速定位和解决问题的需求。
平台可视化建设不应只是纳管“指标、日志、链路”等监控数据,还需要建立“跨业务、跨系统、跨资源”的数据整合关联和可探索性能力,因此一张自动生成、直观完整、带状态、带流量的多层级业务逻辑关联关系动态可视化视图对于运维人员及业务人员来说,是能够赋予运维人员快速发现问题、定位问题、解决问题能力的强大工具。可视化主要有以下几个亮点。
(1) 业务逻辑自动生成:能自动展现负载均衡多层级业务的逻辑关联关系的逻辑视图;能自动呈现应用间的逻辑访问关系;能清晰掌握从业务访问流量入口到服务器端的全路径,提高运维准确性。
(2) 带状态带流量:横向全链路关联视图,结合纵向资源指标、性能指标关联,实时展示各个节点的关联关系与状态、流量等信息,能帮助运维人员快速了解业务的整体状态是否正常,流量分布是否合理,是否存在潜在运维风险。当发生运维事件,但仅知某IP或某名称或某端口时,可通过精准/模糊搜索,快速展示相关的关联关系,结合监控指标展示,掌握路径中节点的状态、流量信息等重要运维指标,满足运维可视可度量需求,快速追踪到具体节点,辅助运维人员快速发现问题、定位问题。
(3) 可编辑可交互:发现问题,是为了解决问题。视图不仅仅可观测,视图上所有负载均衡元素均可编辑,当运维人员通过视图发现故障点时,可直接编辑视图,迅速调整配置,敏态运维。同时提供先导式一键业务发布,将流程、场景、配置等运维视角进行多角度整合,提高敏捷解决问题、敏捷发布业务的能力。
(4) 自服务可消费:结合权限控制模块,通过角色个性化授权方式,提供视图查询消费功能,使得负载均衡配置、状态信息等运维数据可安全地提供给不同的部门消费,如业务人员可通过可视化视图入口,获取相关的业务关联关系、流量状态、IP、端口等信息,开发人员可自行查看配置、策略等信息,可对相关池成员一键启停进行蓝绿发布等。可视化自服务能力能减少对运维人员依赖,降低运维压力的同时帮助做到权责分明,提升数据共享与多部门协同能力,释放运维人员精力从事高价值服务,创造运维的核心价值。

图3 平台多维可观测
总结及展望
作为国投证券网络自动化平台架构的专项工具平台之一,负载均衡智能运维平台的建设实现了日常运维工作中的巡检、备份、监控告警、报表、业务视图、业务自动化部署、数据自助消费等常用场景的自动化运维落地。平台提供标准的API接口,目前已与公司内的单点登录、统一流程等系统进行对接,有效支持了业务的全自动上线和业务视图数据的自服务消费。正逐步与现有的运维平台对接,实现自动化运维编排协作。
平台的建设实现了负载均衡智能运维的平台化、自动化和可视化目标,缩短了业务上线时间,减少了人工干预,降低了运维风险,并释放了运维人力。最终,它不仅实现了负载均衡运维的智能化,极大地提升了运维工作效率,同时为业务部门的自运维提供了有效的保障。
随着负载均衡智能运维平台和已上线的防火墙智能运维平台的落地,国投证券在全网网络智能运维方面的应用逐渐成熟。作为网络的基础底座平台,这些智能运维平台将为业务平台提供更有利的保障。通过这些平台的应用,国投证券能够更好地管理和维护网络设备,实现自动化、智能化的运维工作,提高网络的稳定性和安全性。
未来,国投证券网络团队将朝着"传统运维向数智化运维转变"的目标迈进。根据实际业务场景和用户体验,不断增强自身能力,并致力于实现全网网络智能运维的一体化。团队将努力探索一条符合证券行业特点、安全可靠的智能运维一体化管理之路,并为此不断努力。这种转变将带来更高效、智能、可靠的运维管理方式,为国投证券提供更加优质的网络服务,并进一步提升整体运维水平。