你好,
之前我发现viewtopic.php吗?t = 78327-这对我来说毫无意义,但我们决定禁用md5认证的解决方案值得一试,在仔细检查我们对“直接连接的攻击者”的缓解措施是否到位并可操作后,我们禁用了OSPF md5认证。这并没有以任何方式解决问题,因此,我们怀疑身份验证从来就不是真正的问题。
同一页面表明您的问题是数据包丢失。根据所涉及的任何路由器,我们都没有看到邻接关系的丢失。具体网段由2台(48x10G + 4x40G)交换机组成,在可能的情况下配对运行vPC (LACP)回路由器,或者在没有10G主用+ (2 × 1G LACP)备用的情况下(即只有1 × 10G端口可用)。我们也没有看到回声请求/响应帧的任何损失(我刚刚以1ms的间隔淹没了不到1000万个这样的请求,并且得到了0%的损失——对于一个在同一时期意外退出OSPF的路由器)。
每个受影响的路由器,我们每天会收到20到25个这样的辍学。详细的症状:
*同一L2段上的其他路由器会在一段时间内(有时会延长,例如半小时以上)丢弃来自MT的路由。
*来自其他地方的路由和发布到MT不受影响(即,MT保留它的路由到网络的其余部分)。
该段涉及的路由器(接口地址和DR选择优先级):
172.31.255.1 - FRR 8.2.2 -优先级200 -在08:15:33下降到下面
172.31.255.2 - FRR 8.2.2 -优先级200(当前DR) -下降到08:15:42
172.31.255.3 - l雷竞技RouterOS 6.48.4(48小时后升级)-优先级1
172.31.255.5 - l雷竞技RouterOS 6.49.6(当前BDR,今早升级)-优先级为1
我在日志中发现的导致路由删除的是相当多的“跳过洪水:从DR或BDR”。只有当路由器是DR或BDR时,我们才希望将大量更新发送回网络,这是有道理的。但我怀疑这也意味着路由器没有定期刷新它返回DR和BDR的路由,甚至不确定这是否是一个考虑因素,但我猜如果MT不让DR和BDR不时地知道它的路由仍然有效,它们就会经常被丢弃。
让我感到困扰的是,自从今天早上升级以来:重新启动的路由器一直不稳定,而在同一时间(仅仅4个多小时),我们有4次从未重新启动的节点中断(上面是第一次的日志)。据我所知,这可能有两个原因:
1.重启可以暂时修复任何潜在的问题,然后它又会回来;或
2.如果一个路由器是DR或BDR,那么只要有lsa,它就会泛洪,导致它自己的路由器也会在对等体上被刷新。
我对OSPF协议不够熟悉,无法证实或拒绝这两种假设。
产生的问题:
* iBGP应该正常连接回环地址-如果OSPF失败,回环失败,iBGP失败,整个网络失败。我们不得不更新iBGP以使用接口地址将链路层故障转换为路由故障,但这些故障远低于目前的OSPF(每年少量故障,而OSPF几乎每小时退出一次)。
*次优内部路由(例如,将遵循BGP宣布的/21到路由反射器,而不是更具体的/28从OSPF到不同的路由器)。只是增加了额外的延迟,而不是列车撞击,因为下一跳将重定向(这不是MT)。
*源自microtik路由器的直连(连接路由)的非功能路由。雷竞技网站(类似环路的问题,幸运的是,这些目标网络通常用于路由EGP,所以99%的时间不是阻塞问题,因为大多数情况下只有路由器本身需要能够访问这些目的地)。
第一个是网络杀手。是的,我们可以通过路由到接口地址来解决问题,但这在很大程度上否定了网络中冗余的意义。
很高兴在第一端创建所有流量的pcap(对性能的影响要小得多),但可以直接向microtik Support提供以上OSPF的原始日志(不能公开发布,但很高兴讨论和测试)。雷竞技网站