随着网络规模不断扩大,复杂程度不断增加,给运维工作带来更大挑战。为保障网络正常、稳定、高效运行,对网络流量进行监测、存储、回溯成为不可或缺的手段,通过对流量的分析,运维人员可以更加全面的了解整体网络的运行状态,快速定位、解决网络中存在问题。
智和信通网络流量监测分析方案通过采集、存储、分析网络流量并以可视化的方式,将流量态势进行呈现,协助运维人员对网络流量趋势进行分析,助力网络监控、网络优化,并为网络规划、优化调整和业务支撑提供基础依据。
第1章 网络链路可视化观测
方案采用可视化图形的方式实现网络中设备、资源、链路状态的整体观测,用户只需要输入IP范围一步操作,通过平台的智能发现技术,即可自动完成如下全部功能:网络设备发现、设备类型识别、设备链路发现、设备故障和性能采集、链路流量和状态以及网络拓扑生成。
1.1.网络设备与链路自动发现
在自动发现的过程中,搜索网络设备并识别设备类型和厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等,并发现设备之间的链路关系。通过图形化方式系统展现网络拓扑,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,在拓扑中以不同颜色设备图标实时展现设备和链路的实时状态信息。
实时对网络链路进行监控和可视化数据分析,从整体维度到局部维度全面展示网络内设备链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口及每条线路的通断情况和性能指标,如带宽利用率、流入流出流量、延迟、丢包率等,并在拓扑上直观显示出来。
对链路容量进行即时监控,根据故障阈值比对,当性能指标超过预设阈值时,即可触发响应级别告警,帮助用户快速发现并解决潜在问题。
1.3.网络流量透视
基于网络流量分析技术,采集、分析、存储所有网络流量,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪。
通过全局流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。
提供端到端的流量监控能力,从设备、接口、IP、服务、应用、会话、QoS等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升最终用户网络体验。
提供设备、接口、IP、服务、应用、会话等层级的带宽使用率监控,实时监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况。
采集并存储网络流量,形成原始流量和聚合流量数据库,支持快速提取多维度的流量元数据进行正常、异常流量排查,为后续运维人员对原始网络流量进行查询检索及关联回溯分析。
大容量、长时间存储流量数据,长期实时保存原始数据包。通过高效的数据检索,实现流量数据的快速回溯。对已发生的流量行为进行回溯分析,迅速定位异常流量,对其进行挖掘、分析、取证,实现多维根因追溯,为迅速定位问题发生原因提供更全面的分析依据,同时为网络安全提供强有力的数据分析保障。
1.3.4.流量趋势分析
从设备、接口、IP、服务、应用、会话、QoS等层级出发,提供历史流量趋势图谱,通过应用、端口、协议等对流量进行监控和多维度分析,支持按源和目的地进行流量,流量监控粒度可达大小、速率、带宽使用率、包等。
1.3.5.源和目的地分析
查看近30分钟、近1小时、近1天及自定义时间内作为源或目的地的节点产生的流量信息,以图表的形式进行展示,并给出产生流量最多的10个节点。
通过统一故障管理将监控信息统一采集、分析,实现网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,快速标识已经执行操作的告警,定位异常流量,提供主动式的故障解决方案,协助用户及时处理网络安全威胁,避免恶意流量对有限带宽资源的侵蚀。
采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,直达故障根因。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。
2.2.根因定位
实现快速的异常流量定位,能一步定位到发生流量异常的源头设备、接口、IP、应用、会话等,及时处理好故障,有效地预防故障发。
全面采集告警信息,将告警信息数据按照时间、资源、性能类型等多种维度以图表等形式展现。通过丰富的、可自定义的多维度报表,实现平台内所有模块告警的统一管理分析,从变化趋势、告警关联、排障处置等多方面、多视角洞察告警态势。
第3章 流量巡检
支持自定义流量巡检策略,对网络流量情况进行实时巡检和报表生成,并可自定义预设时间向指定邮箱发送巡检结果报表,实现对网络流量的定期检查,把握网络运行中的易出现问题的环节,做到预防为先。
用户可自行选择要巡检的类型,包括:网络、设备类型、设备、业务、链路等,定义巡检的范围和指标,如:输入输出流量、输入输出带宽、带宽利用率等。
实现基于设备、资源层面的深度管控。在控制策略管理方面,基于多种协议等设备管理协议,进行统一安管、运维规范配置,实现多品牌设备集中管控、安全策略可见、配置准确性核查等功能。
提供多设备、多资源批量策略下发操作。提供拓扑图右键快捷命令下发操作。支持对华为、华三、迈普、迪普、锐捷等国产设备的深刻管控,包括ACL、QOS、路由配置、账号安全、终端准入等。
4.1.流量策略
平台支持流量策略批量下发、失败重发,方便全网实施统一流量策略,策略可进行同步、批量查询和对比核查。如通过可视化界面进行端口级QOS策略 ,支持QOS、流行为、包过滤、类、流量监管 优先级等流量策略,用户可对QOS策略对比、核查。
4.2.网络安全策略
平台支持实现多设备、多端口批量进行准入控制操作,方便全网实施统一准入策略。如自定义ACL模板,实现ACL策略、源和目的IP、协议、端口、访问动作等细粒度的控制。
4.3.故障自愈策略
无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。以网络状态监控、设备性能监测为基础,结合网络流量侦测功能,动态发现网络故障。
智能判断告警类型及级别,自动触发预设的故障处置流程,复杂告警指派工单专人处理,常规告警触发安全策略全自动处理。
通过自定义智能报表模板,运用钻取、旋转、切片等操作,实现流量数据的灵活展现和统计分析,通过自助式数据同比、环比、TOPN等分析方式及周期自动生成报表功能,实现运维数据有效利用。
利用图形、图表等易于理解的形式,将采集到的网络流量数据进行整合分析,通过强大的可视化能力对有效信息进行呈现,从流量利用方面为网络和业务稳定提供支撑。
6.1.某银行总行两地三中心引入智和信通运维平台,实现集中监控、统一运维
6.1.1.项目背景
近年来,某银行总行中心业务持续发展,各项业务数量与复杂的逐年上升,信息系统数量增加且规模不断扩大,作为支撑的网络设备数量逐渐增长、类型不断增加。为保障业务连续性,其上线了各类运管工具,然而,现有运管工具多,相互独立,缺少关联,数据分散,导致工具联动弱、监控处置慢、运维效率低,且部分系统易用性差难以灵活扩展、配置。因此,急需一款集中运维监控平台,替换老旧监控平台,形成统一的运维管理,实现统一监控、统一告警、统一分析。
6.1.2.项目现状
某银行总行中心目前因设备类型与品牌型号复杂,采用了多种运管工具进行管理,工具相互独立,难以满足其日益丰富的运维需求。现急促统一监控运维平台对设备进行集中监控,打通数据孤岛,实现跨团队数据共享及宏观统一监控。
设备类型:Aix、Windows Server、Centos等操作系统;DB2、MySQL、Gbase等数据库;nginx、WAS、MQ等中间库;浪潮、华三、曙光等品牌服务器;浪潮、IBM等小型机;docker容器;存储设备、安全设备、网络设备等。
设备数量:1600+台设备。
部署需求:两地三中心部署。
功能需求:
6.1.3.智和信通方案
经过与某银行总行中心运维团队的深入交流和详细需求调研,智和信通通过分布式部署的方式支撑其两地三中心架构,在北京中心、北京灾备中心、某地分中心分别部署智和网管平台,同时提供容灾机制,任一中心出现问题可以无缝被其他中心接管。最终实现,运维数据全量同步,在任意中心均可查看全部数据的同时,各中心可分别管理各自下属的设备,北京中心可以对全部设备进行管理、查看。
兼容信创国产生态,产品安全可控
立足于北京智和信通10年的国产融合经验,智和信通全部产品与国产软硬件产品深度适配,涉及的产品与模块,均由北京智和信通自主研发,从功能模块、数据库、界面全部基于统一Java技术平台和统一数据关系模型,不包含任何第三方功能库。在支撑用户构建信创环境的同时,也针对各类信创设备、服务组件等提供相应的运维服务,在降本增效的同时,促进政企用户业务创新发展。
通过智能发现技术,在智和网管平台中用户仅需输入IP范围一步操作,即可自动完成网络设备发现、设备类型识别、设备链路发现、设备故障和性能采集、链路流量和状态以及网络拓扑生成。并且在自动发现的过程中可以搜索到网络设备,并识别设备类型和厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等,并发现设备之间的链路关系。
自动生产网络拓扑,网络架构可观测
已发现的设备、资源、链路可自动生产网络拓扑,以图形方式整体观测,并以声光进行告警提醒。实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。同时,采取统一数据标准,对整体网络中的IP地址进行梳理和管理,建立IP与MAC对应关系库,端到端规划、部署、管理和监控IP地址使用情况。
海量设备集中监控,统一管理
集中监控中心的各类设备,统一监控配置和策略,获取网络设备、硬件服务器、存储设备的性能运行数据、日志事件数据、流量数据等。监控策略根据资源类型的不同,涵盖状态信息、响应时长、使用率、输出输入流量、输入输出带宽、时延、命中率、读写速度等方方面面。整个监控指标体系,支持完全自定义,根据设备不同应用场景的不同进行差异化配置。
全量汇聚异常告警信息,基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。根据各省管理权限及人员排班安排,定义告警通知策略,从系统内声光闪烁到邮件、短信通知,运维人员第一时间获知告警信息,排障处置责任到人。
支持通过Flow流量数据,提供端到端的流量监控能力,从设备、接口、IP、服务、应用、会话、QoS等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或IP地址,避免网络容量过载,并提升最终网络体验。
智能化、自动化的业务监管方案,支持可量化、可视化的技术手段,全面监控IT业务系统服务的响应性能,帮助用户准确感知整体业务的性能和质量状况。提供业务拓扑、可用性拨测、调用链追踪、业务告警、根因定位等能力。
7×24小时不间断监控,运维数据大屏展示
智和网管平台平台内置5种大屏样式与自定义大屏能力,适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
多维度权限划分,软件安全可靠
提供给该中心多角色管理员分权管理网络能力,角色与地域权限立体化管理,使各种角度的运维人员责权分明。对不同的管理人员分配不同的操作权限,可以对不同的管理人员分配不同的网络,做到粗、细粒度的权限控制,避免越权管理。同时,针对危险操作,能够有良好的提示以及提供日志记录。
二次开发平台,具备灵活扩展能力
二次开发平台在基础框架、可重用组件和软件功能之间保持隔离,既确保了快速定制又不损失组件化、架构化特性,该中心研发人员可选中API或代码的形式对平台进行二次开发,提高研发效率。同时,智和信通提供全套开发资料以及完善的培训服务,该中心可以随心定制出符合自身需求的运维监控功能。
6.1.4.应用价值
通过上线智和网管平台该中心实现两地三中心设备集中管理,当出现故障时可进行关联分析,通过跨岗位信息联动,为运维人员提供更加便捷的故障分析和处置手段,在降低故障发生概率的同时,在故障发生后,“早感知、快定位、急止损、优改进”,降低影响范围。为日常运维保障、高层管理决策提供支撑,助力保障业务连续性。
利用图形、图表等易于理解的形式,将采集到的网络流量数据进行整合分析,通过强大的可视化能力对有效信息进行呈现,从流量利用方面为网络和业务稳定提供支撑。