GreatSQL社区

搜索

【GreatSQL茶话会14】运维工作中你遇到过哪些神奇事件?

460 8 2024-4-10 09:56
GreatSQL 茶话会第十四期来啦!!!

本期话题
在日常的硬件运维、系统维护等等工作中,你有遇到过哪些奇怪的事吗?快来分享一下你的趣事吧!
在本帖下参与互动回复,即可获得对应的活动奖励,更有机会获取社区定制双肩背包一个!快来参与讨论吧~

活动奖励
  • 参与讨论者(回复内容 20 字以上):社区金币 100 个;
  • 精华回复(回复内容 100 字以上):社区金币 300 个;
  • 回复的内容获得点赞数前两名(点赞数需不小于 5):社区双肩背包一个。

活动时间
点赞数量统计截止时间:2024.4.29 24:00



双肩包白.jpg
全部回复(8)
admin 2024-4-15 09:33:28
先说一个之前听说过的事情吧,十多年前,有个单位每晚固定十点多,机房里的某一排服务器都会断电几分钟,然后又莫名其妙好了。单位先是看了机器都没问题,然后又找了电工师傅检查了电路电线也没问题。

最后调了监控发现,原来是每晚十点多门口保安室大爷拿着电暖壶,拔了机柜的插销烧一壶开水泡茶,烧完了再给插上。。。




myron_mei 2024-4-15 10:33:23
1、GP集群中某一个计算节点,经常因为节点的通讯问题,导致该节点的通讯异常,需要gprecoverseg。
2、不管是远程管理卡和机房人员都均为发现该机器的网络存在问题,且通过各种各样的工具和命令,都无法确认该节点的网卡存在问题。
3、从检测的丢包率和丢包量来看,虽和其它节点无太大异常,但仍感觉该节点的网卡存在问题。
4、最后联系机房更换网卡和网卡mac地址后,再也没有因为网络问题导致集群之间的通讯异常。
5、据机房维护人员,该节点曾经更换过网卡,但实际结果是没有更换过网卡,只是打开看过没有问题,又插了回去,不知是不是因为金手指还是没有插牢结果导致的异常,还是其它原因导致的,感觉很玄幻。
Nightingale 2024-4-15 12:39:39
到一个项目上部署数据库,客户给的服务器会不定时重启... ...而且客户知道这件事,但他们还是打算拿来当数据库服务器... ...
海之韵 2024-4-16 10:22:32
在一次例行的服务器维护中,我遇到了一件奇怪的事。一台服务器突然无法正常启动,没有报错信息,但电源指示灯一直在闪烁。经过一番检查,发现是内存条接触不良。奇怪的是,当我重新插拔内存后,问题并没有解决,反而是当我尝试吹掉灰尘时,服务器突然启动了。原来,吹尘的过程中不小心对内存条施加了压力,使其恢复了正常的接触。
hades 2024-4-17 09:32:29
1、排查一个redis服务器流量异常的情况,定位到对应开发那边,但是开发的回复说他那边的任务是每个小时准点开始运行,但是监控曲线图显示每个小时准点的前几分钟流量就飙起来了,最终定位发现是运维搞的监控服务端服务器没有设置ntp导致时间跟其余服务器没同步。

2、有段时间发现自己的办公电脑天天被强制关机了,一直没查到原因,最终找人查看监控是保洁阿姨打扫卫生需要吸尘器通电,那段时间天天在我那边查吸尘器,拔了我主机的电源线

3、有次机房人员误操作,导致一个机柜断电了,上面的服务器里面几乎都是redis服务器,那时候没做高可用,而且为了性能稳定redis主节点都没做持久化,从节点做持久化。导致操作人员决定还是重新启动redis让业务恢复,然后就悲催了,redis里的缓存数据全丢了!!!!一个超级大锅就下来了,其实应该做切换的!!!
王歡 2024-4-19 09:40:42
在对一套历史悠久的系统进行数据迁移时,我意外地在某个被遗忘的备份角落里发现了一份奇特的SQL文件。深入研究后,发现其中充斥着五花八门的实验性查询语句及诙谐幽默的注释内容,甚至还有些令人忍俊不禁的奇葩表名和字段名。显然,这是昔日某位开发者一时兴起留下的“杰作”,未曾预料到它会在多年后重见天日,如今这份SQL文件已成为我们团队轻松时刻津津乐道的话题之一。
renduy 2024-4-22 09:28:05
转一个知乎的答案吧,我从业初期看到的,惊奇了半天,给我最大的影响就是,以后遇到无法解释的现象就怀疑环境问题
以下引自知乎
某通讯设备公司(没错,就是你想的那间)有个bug很有意思:有一天电信局的运维打电话来投诉,说某设备一到晚上就随机出现误码率越限告警。于是办事处的技术支持人员屁颠屁颠跑去挂误码仪测了半宵,没找到bug,眼看天就要亮了只好把业务倒回去再说。过一天运维主任打电话了,还是这个bug。这次是家里远程连线看内存抓log,折腾好久也没找到重现规律。再过一天电信局的领导都来电了,因为这条干线上承载了很多重要的业务,误码再搞不定,电信的大客户就要来投诉了。这次不得已只好把家里的研发骨干派了出去。这位老兄带了好几张板子,新旧软件也带去了,仪器一大堆,升级、降级、拔板、换板,还有各种研发才懂的内部调试命令,一个晚上还是没找到规律。然后天亮了(请睁眼)老兄正打算去吃了早餐再战,结果这个时候误码消失了!这位老兄若有所思地看着窗外刚刚熄灭的路灯,然后恍然大悟,原来是路灯的镇流器EMI太大,而板子电源模块的防护能力不足,电源波纹干扰下就会有随机的误码出现。后来换了个电源模块就没事了,内部规范xxx的第x章节关于EMI防护设计和测试的条件又严格了一些。

作者:okstar
链接:https://www.zhihu.com/question/21747929/answer/1274411666

renduy 4 天前
一个GA局的项目,机房和JC休息的地方很近,他们嫌弃午休时机房太吵,每天中午睡觉前先把服务器下电,睡醒了再上电   后来有一次忘了上电了 ,过了很久客户投诉说终端无法通话才发现。给我的感觉政企客户的钱太好挣了   几千万买回去就当摆设
admin

46

主题

5

博客

157

贡献

管理员

Rank: 9Rank: 9Rank: 9

积分
249

勤学好问(铜)写作分享(铜)助人为乐(铜)给予赞同(铜)炙手可热(银)

合作电话:010-64087828

社区邮箱:greatsql@greatdb.com

社区公众号
社区小助手
QQ群
GMT+8, 2024-4-30 03:27 , Processed in 0.020164 second(s), 18 queries , Redis On.
快速回复 返回顶部 返回列表