Tag Archives: 伺服器

超越基準!透過先進測試克服AI伺服器散熱問題

AI伺服器熱度延燒,應用環境大挑戰 人工智慧(AI)技術飛速發展,AI伺服器在各行各業的應用日益廣泛。然而,高性能AI運算所產生的巨大熱量,伺服器散熱系統面臨嚴峻挑戰。因此,散熱分佈單元(Cooling Distribution Unit,CDU)作為關鍵的散熱設備,其應用趨勢也備受關注。 AI伺服器散熱面臨哪些挑戰? 高密度運算:AI訓練和推理需要大量的運算資源,導致伺服器內部元件的熱密度明顯增加。 不均勻熱分布:不同元件的發熱量差異極大,如:GPU、CPU和記憶體,這使得散熱設計變得更加複雜。 能源效率:提高散熱效率能夠延長設備壽命,且降低能源消耗。 AI伺服器散熱為一個複雜且具有挑戰性的課題。散熱分佈單元的發展,將為AI技術的進一步應用趨勢提供強而有力的支持,因此 CDU在AI伺服器中扮演著至關重要的角色,其性能直接影響到伺服器的穩定性壽命。然而,若對CDU進行全面且有效的測試卻面臨多重挑戰。 CDU延伸出各種難題 百佳泰與AI伺服器製造商在密切的合作中,協助這些客戶在SIT、Reliability、SI等各種應用測試,由於CDU其性能與穩定性對AI伺服器至關重要,因此CDU廠商非常重視其相關驗證,許有CDU供應商了解我們與關鍵伺服器廠商的合作,因而協尋我們一同克服驗證上所遇到的難題。 CDU測試四大挑戰 ▪️ 多變的工作負載: [...]

你的系統持續在發熱,別被散熱風扇騙了!

隨著科技的成長,需要被存儲、計算、傳送等的資料會愈來愈多,因此,設置高密度的Data center / Server對於商業基礎設施和國家基礎建設來說也變得格外重要。在物聯網、雲端存儲、大數據運用、人工智能和5G等領域的加速發展下,數據中心的建置與需求也將越來越龐大,而數據中心在全年無休運行下會產生高密度的廢熱,這些廢熱主要是由每一櫃中數個伺服器所產生,若未能有效地進行散熱,將容易導致系統過熱無法正常運行,因此對數據中心的伺服器性能的穩定性來說,運用風扇或水冷來達到散熱這課題也相對重要。 伺服器風扇過熱會有哪些潛在風險? 在高溫環境中長時間運作,伺服器風扇所使用的塑料材質,可能會因熱變質而變脆,進而造成破損,導致風扇有可能在持續運轉,但效能已經降低。風扇效能降低,會影響伺服器的散熱效率,使伺服器內部元件過熱,造成元件損壞。元件損壞後,可能會導致伺服器無法正常運作,甚至造成資料遺失或系統崩潰。這個結果將導致應用服務停擺,甚至是客戶資料的流失,進而引起消費者客訴等負面的使用者體驗。 實際案例分享 根據百佳泰多年實驗經驗,我們針對實際案例進行說明:客戶的產品在進行長時間的可靠度驗證時,我們發現在長時間運轉下,雖然風扇依舊持續旋轉,但其塑料材質已開始脆化進而出現裂紋。因此即使風扇雖仍舊在運轉,但我們已經將這類的現象判為問題件了。 百佳泰提供三大解決方案 百佳泰針對伺服器風扇的可靠度驗證有非常多豐富的專案經驗,同時也設計了一套解決方案來提供服務。百佳泰自行設計、開發了一套風扇專用的測試治具,此治具以模組化組成,最多可以支援15顆風扇同時測試。 另外,百佳泰也自行開發測試自動化軟體,能將治具支援的15顆風扇虛擬成三組,分別進行不同的測試項目,如:Full power mode 或是Power cycle [...]

魔鬼藏在細節裡!使用者情境模擬幫你找出伺服器品質潛在風險!

伺服器多元化應用服務時代正式來臨! 隨著數位化和數據需求不斷增長,伺服器產業也持續成長中,同時各種應用服務也不斷推出,包括雲運算、人工智慧、大數據分析、物聯網、區塊鏈和其他新興技術。在越來越多應用服務推出同時,伺服器的規格也不斷在演進以因應不同的應用服務,例如純運算的AI伺服器、儲存資料的儲存伺服器、運算及儲存兼顧的混合型伺服器,以及適合邊緣運算的邊緣伺服器等。 預先防範潛在風險,降低商譽營收損失 一般來說,應用服務供應商會選擇適合的伺服器規格,來佈署所提供的應用服務,但卻無法確定佈署後的運行效能或穩定度,是否能按照最初規劃的方式呈現。同時,在運行的過程中是否會因為外在的環境因素如溫度、震動等,導致可靠度的問題發生,這些都是無法預測的。而當真的發生運行效能不佳、應用服務平台不穩定或產生可靠度問題,導致伺服器硬體故障等潛在風險產生,都會使應用服務供應商遭受立即性的商譽及營收損失。 另一種情況是當佈署運行一段時間後發現問題,經檢查分析後確認是硬體相關的問題,此時要回頭找系統供應商時卻發現該專案已經結束,相關資源已經解散到其它新專案上。因此系統供應商需要花更多的時間來尋找資源解決問題,再加上硬體可能招回的rework,這些都會是應用服務供應商或採購方的巨大成本。 使用者情境完全模擬,全面防堵各式潛在風險 百佳泰提供使用者情境模擬解決方案能夠在伺服器出貨前先模擬並驗證之後的佈署是否會產生上述的潛在風險,能夠有效的降低佈署後實際發生問題的機率。下面提供幾種使用者情境模擬的例子,來確認伺服器的效能及穩定度: MySQL Database workload simulation MS SQL OLTP workload [...]

儲存伺服器效能降低的關鍵原因:風扇問題深度解析!
儲存伺服器效能降低的關鍵原因:風扇問題深度解析!

雲端服務盛行,儲存需求無止盡 雲端服務供應商堪稱是近十年來全球最炙手可熱的新興服務型態之一,不論是雲端儲存服務、影音串流媒體或牙是社群服務平台等,在面對每天巨量成長的資料,為了持續滿足消費者的龐大需求,儲存容量的擴充自然是時時刻刻都必須面對的課題,也因此數據中心中的儲存伺服器效能便佔有很大的比重。 依據資料本身的屬性,資料的儲存大致可分成熱資料與冷資料而存放在不同的儲存媒體。一般來說,熱資料會偏向儲存在固態硬碟(SSD),而冷資料則存在硬碟(HDD)。又也因為熱資料過一段時間後就會變成冷資料,因此存放冷資料的儲存伺服器會一直不斷地成長。 長時間的振動負載將影響儲存伺服器效能 由於硬碟使用磁盤轉動並以磁碟讀寫頭讀寫資料的特性,採用硬碟的儲存伺服器對於振動會相對地敏感。一旦環境的振動過大,就會影響到資料存取的效能,嚴重者甚至還可能會讓硬碟磁頭/碟片損壞,進而導致該硬碟損毀。一般來說,引起長時間振動負載的主要有以下三個潛在因子: .冷卻用風扇產生的噪音負載 .冷卻用風扇本身振動的負載 .硬碟本身振動的負載 對此,百佳泰也進行了兩個實驗,一個是噪音對硬碟吞吐量的影響,另一個則是模擬儲存伺服器使用情境時的硬碟效能量測,兩者都顯示風扇的確會影響硬碟的效能。 伺服器關鍵元件/裝置品質測試服務 伺服器上的任何一個元件/裝置,都必須嚴格品質控管,唯有經過縝密測試,才能因應伺服器的高規格及高效能需求。百佳泰深耕IT領域,至今已累積超過30年的測試驗證經驗,針對風扇及振動等相關問題,百佳泰能提供全方位的客製化解決方案。 風扇單體 可靠度測試:以長時間的溫濕度變化循環,搭配風扇轉速及電源循環等情境模擬來驗證風扇的可靠度。在驗證過程中也會定期取出風扇來進行拆解的動作,確認每個部件的磨損狀況。 噪音量測:以聆聽室或無響室來量測風扇在不同轉速時的噪音,提供伺服器製造商於設計伺服器內部構造時的參考。 風量量測:以風洞機量測風壓與風流(P-Q [...]