记一次家庭网络的网络风暴故障排查
3月7日,周日,本来是一个应该好好休息放松的日子。
上午10点左右
家里的小爱同学,突然罢工了,提示『网络连接失败』
本来以为只是个小问题,没想到经过一番检查,发现家里所有联网的设备,网络都挂了???
而且局域网完全罢工,任意2个设备都不能互相访问???
这就跟我眼瞎了差不多,完全就没头绪好吗!!!
分析问题
根据设备的一般规律,一般不太可能2个或2个以上的设备同时坏掉。
而目前的现状是,几乎所有的设备都像坏了,昨天正好下大雨,难道打雷把设备劈坏了?
马上我又否定了这个想法,半小时前还能正常使用网络了,和下雨肯定没关系。
那有可能是家里的核心交换机坏了?毕竟是16口千兆交换机,如果因为交换机损坏导致所有设备网络不通,也是非常正常的。
于是拿出了备用8口交换机换上,结果换上后无济于事...
于是又怀疑另外一个8口杂牌交换机坏了,毕竟是杂牌交换机,结果换上后无济于事...
中午12点左右,毫无进展
网络已经断了1个多小时了,并且完全没头绪,也完全没定位问题。
我心态有点要崩溃了,这 TMD 有点坑爹啊。
正好到了午餐时间,先停下来,吃饭,冷静一下,整理思路再干。
下午2点左右,最小系统
LD也提出了建议,既然网络搞不好,那先保证家里能正常上网吧。
有点道理,于是把家里局域网和电信猫断开,仅使用备用路由器 + 电信猫,成功连接网络。
至少家里有个临时可上网的 WIFI 了,心态又好了一些。
但是问题还得继续排查,不然家里上百个联网设备,就得一直罢工了。
排除法
既然现在可以正常上网了,那就把设备一个个换掉试试。
把软路由换为备用路由器,无济于事...
那也不是软路由的问题。
先把各个房间,和各个AP的网线整理出来,打个标签,方便查看。
然后再在可用的网络上,加上备用交换机,然后把各个网线,一根根插到交换机上。
前几根网线插上的时候,网络还可以正常上网。
然后又插了几根网线,还是可以上网啊...
不过,过了1-2分钟,新的网络也挂了,和之前症状一模一样...
突破口
终于算是找到突破口了,我开始一直把排查重点放在家里的弱电箱,而没思考其他房间的设备。
应该是其他房间的某个设备,导致网络挂掉的。
事情有了突破口,就好办多了。
下午4点左右,解决问题
现在开始,对一根根网线进行排查,而且插上网线后,得一直 ping几分钟,完全没问题才能继续排查。
又过了许久...
终于定位到是哪根房间的网线有问题了。
好开心,现在可以恢复家里80%以上的设备联网了。
下午5点左右,真相大白
剩下的工作也轻松了,连接这根网线的设备,一共就4个:交换机,笔记本,PC机,AP,逐一排查问题即可。
最后问题定位到了AP...
问题总结
说真的,直到把问题定位到 AP,我才突然明白,这次的问题就是网络风暴。
网络风暴:这个词语,我是在 HW,DG机房里学习到的,一般是在新配置网络时,出现了环路,导致网络拥塞。
没想到,对于已经正常工作1年多的网络,也可能会出现这种问题,真是疏忽了。
问题解决后,去 Google 了一下,发现网络上也有类似这种偶发性 AP 导致的网络风暴...
该罪魁祸首 AP 已经被打入冷宫,毕竟毁了我几乎一个完整的周日,上午2小时,下午4个小时,全搭进去了。
有线联网设备整理
- 弱电箱:电信猫,软路由,群晖NAS,16口交换机,5口交换机
- 主卧:AP,8口交换机,PC 机,笔记本,AP,5口交换机,小米电视
- 次卧:AP,8口交换机,小服务器,群晖 NAS,群晖 NAS
- 客厅:AP,5口交换机,MiniPC,AP,AP
- 走廊:AP
- 儿童房:AP,5口交换机,AP
确实 AP 占了半壁江山,AP损坏本就是意料之中的,但导致网络风暴就过分了。
得好好想想怎么处理,以及以后怎么避免。