你好,
之前我发现viewtopic.php吗?t = 78327-这对我来说毫无意义,但我们认为禁用md5认证的解决方案值得一试,在双重检查后,我们对“直接连接的攻击者”的缓解措施已经到位,我们禁用了OSPF md5认证。这并没有以任何方式解决问题,因此,我们怀疑身份验证从来都不是真正的问题。
同一页表明您的问题是数据包丢失。根据所涉及的任何路由器,我们都没有看到邻接性的损失。特定的网段由2个(48x10G + 4x40G)交换机组成,在可能的情况下配对并运行vPC (LACP)回路由器,或10G主+ (2 x 1G LACP)备用(没有)(即只有1个10G端口可用)。我们也没有看到回声请求/响应帧的任何损失(我刚刚以1ms的间隔淹没了不到10m这样的请求,并且得到了0%的损失-到一个在同一时期意外退出OSPF的路由器)。
每个受影响的路由器每天都有20到25次这样的掉线。详细的症状:
*同一L2段上的其他路由器丢弃了来自有问题的MT的路由(有时会延长,例如半小时以上)。
*来自其他地方并通告给MT的路由不受影响(即,MT保留它到网络其他部分的路由)。
该段所涉及的路由器(接口地址和DR选择优先级):
172.31.255.1 - FRR 8.2.2 -优先级200 - drop below at 08:15:33
172.31.255.2 - FRR 8.2.2 -优先级200(当前DR) -在08:15:42降至以下
172.31.255.3—Rol雷竞技uterOS 6.48.4(将在48小时内升级)—优先级为1
172.31.255.5 - l雷竞技RouterOS 6.49.6(当前BDR,今早升级)-优先级为1
我在导致路由删除的日志中发现了相当多的“跳过泛洪:来自DR或BDR”。如果路由器是DR或BDR,我们只希望将更新发送回网络,这是有道理的。但我怀疑这也意味着路由器没有足够定期地刷新它的路由到DR和BDR,甚至不确定这是否是一个考虑因素,但就任何事情而言,我猜如果MT不让DR和BDR知道它的路由仍然有效,它们会经常被丢弃。
让我感到困扰的是,自从今天早上升级以来:重新启动的路由器一直很稳定,而在同一时间内(刚刚超过4小时),我们已经有4次来自未重新启动的节点的停机(以上是第一次的日志)。据我所知,这可能有两个原因之一:
1.重新启动可以暂时修复任何潜在的问题,然后它会返回;或
2.如果一个路由器是DR或BDR,它在生成lsa时就会扩散,导致它自己的路由器也会在对等体上被有效地刷新。
我对OSPF协议不够熟悉,无法确认或拒绝任何一种假设。
产生的问题:
* iBGP应该正常连接回环地址-如果OSPF失败,回环失败,iBGP失败,整个网络失败。我们不得不更新iBGP以使用接口地址,这将链路层故障转变为路由故障,但这远没有目前的OSPF频繁(每年很少有故障,而OSPF几乎每小时退出一次)。
*次优内部路由(例如,将跟随BGP通告的/21到路由反射器,而不是更具体的/28从OSPF到不同的路由器)。只是增加了额外的延迟,而不是trainsmash,因为下一跳将重定向(这不是MT)。
*源自Mikrotik路由器的直接连接(连接路由)的非功能路由。雷竞技网站(类似于环回的问题,幸运的是,这些目的地网络通常用于路由EGP,所以99%的情况下不存在阻塞问题,因为大多数情况下只有路由器本身需要能够访问这些目的地)。
第一个是网络杀手。是的,我们可以通过路由到接口地址来解决问题,但这在很大程度上否定了网络中存在冗余的观点。
乐于在frr端创建所有流量的pcap(性能影响低得多),但可以直接向Mikrotik支持提供OSPF的Mikrotik原始日志(不能公开发布,但乐于讨论和测试)。雷竞技网站