-
Linux 系統 CPU 100% 異常問題,能否用一個 Shell 腳本完美解決?
昨天下午突然收到運維郵件報警,顯示數據平臺服務器cpu利用率達到了98.94%,而且最近一段時間一直持續在70%以上,看起來像是硬件資源到瓶頸需要擴容了,但仔細思考就會發現咱們的業務系統并不是一個高并發或者CPU密集型的應用,這個利用率有點太夸張,硬件瓶頸應該不會這么快就到了,一定是哪里的業務代碼邏輯有問題。2、排查思路2.1 定位高負載進程 pid首先登錄到服務器使用top命令確認服務器的具體情
2024-07-10 Jinyu
-
當運維遇上LLM:大模型 Agent 在 AIOps 運維場景有哪些新實踐
一、為什么要用大模型Agent技術近期,大模型的迅猛發展為 AI 行業帶來了巨大的進步,也有力地推動了 AIOps 的變革。大模型主要通過對話的方式實現智能賦能,Agent 借助多步對話,利用規劃、反思以及工具的使用,以目標為驅動,形成能夠自治完成復雜任務的智能體。Agent 對大模型的加持,極大地提升了大模型的智能能力,并且能對 AIOps 任務類場景起到很好的智能增強作用,有助于提升運維的人效
2024-07-04 Jinyu
-
SkyWalking v10 APM 原生數據庫發布:革新云原生環境中的監控與部署
在當今云原生技術迅猛發展的背景下,現代應用程序的架構日益復雜。微服務、容器化以及動態編排工具廣泛應用,傳統的監控方法往往難以應對復雜多變的環境,尤其是在處理頻繁的變更和復雜的服務交互時顯得力不從心。云原生環境要求監控工具具備更高的靈活性和效率,以適應快速迭代和動態擴展的需求。面對這些挑戰,Apache SkyWalking 團隊推出了其第十版應用性能監控(APM)解決方案——SkyWalking
2024-07-04 Jinyu
-
服務器被入侵了怎么辦?這11個步驟助你完美排查!
隨著開源產品的越來越盛行,作為一個Linux運維工程師,能夠清晰地鑒別異常機器是否已經被入侵了顯得至關重要,個人結合自己的工作經歷,整理了幾種常見的機器被黑情況供參考:背景信息:以下情況是在 CentOS 的系統中查看的,其它 Linux 發行版類似。1. 入侵者可能會刪除機器的日志信息可以查看日志信息是否還存在或者是否被清空,相關命令示例:2. 入侵者可能創建一個新的存放用戶名及密碼文件可以查看
2024-07-04 Jinyu
-
掌握這 12個 Linux Shell 文本處理技巧,誰還不是個運維專家?
Linux Shell是一種基本功,由于怪異的語法加之較差的可讀性,通常被Python等腳本代替。既然是基本功,那就需要掌握,畢竟學習Shell腳本的過程中,還是能了解到很多Linux系統的內容。Linux 腳本大師不是人人都可以達到的,但是用一些簡單的Shell實現一些常見的基本功能還是很有必要的。下面我介紹 Linux 下使用 Shell 處理文本時最常用的工具:find、grep、xargs
2024-07-04 Jinyu
-
這些Linux運維實用技巧,為什么我給滿分?
需求在運維工作中隨著我們積累的經驗不斷增多,不知你是否遇到過以下幾個場景:Linux 如何快速刪除大量文件?Vsphere 如何在不重啟的情況下識別新添加的iscsi硬盤?Linux中 rm 命令如何做到防誤刪?不同 Linux 服務器之間如何實現快速掛載?Linux 中如何將用戶快速添加到附屬組?細心的人往往會通過自己特有的方式來快速處理,不禁讓人拍手叫絕。下面我就來具體介紹下我的處理方式吧。1
2024-07-03 Jinyu
-
Linux下10個最危險的命令,一不“小心”手抖了可咋辦?
Linux 命令行佷有用、很高效,也很有趣,但有時候也很危險,尤其是在你不確定自己正在做什么時候。這篇文章將會向你介紹十條命令,但你最好不要“嘗試”著去使用。當然,以下命令通常都是在 root 權限下才能將愚蠢發揮到無可救藥;在普通用戶身份下,破壞的只是自己的一畝三分地。1、rm -rf命令rm -rf 命令是刪除文件夾及其內容最快的方式之一。僅僅一丁點的敲錯或無知都可能導致不可恢復的系統崩壞。下
2024-07-03 Jinyu
-
挖斷光纜導致阿里云掛了?見怪不怪了
7月2日上午,阿里云上海可用區N出現網絡訪問異常。受影響的服務包括:OSS,ECS,RDS,K8S,OTS,DTS,KMS,PolarDB,Redis,Mongo,ElasticSearch;從發現故障到解決用時31分鐘,從發現故障到影響恢復用時38分鐘。同時,B站崩了、小紅書崩了、阿里云服務器相繼登上熱搜。據知情人士透露,故障原因在于專線被挖掘機挖斷了(小道消息,具體情況請以官網為準)。阿里云故
2024-07-03 Jinyu