中國數字經濟資訊與服務平臺

把數據處理交給SSD來做,這就是當下最火的計算型存儲

計算型存儲(Computational storage)是一股新的發展趨勢,什么是計算型存儲呢?所謂計算型存儲指的是一些數據處理的任務交給存儲層來做,而不是把數據挪到主內存里用host的CPU來處理。

計算型存儲背后反映出,人們對于將數據從存儲的地方遷移到計算的地方時的考慮,這一過程耗費時間,效率比較低。在AI和數據分析領域,數據量都非常大,這時,將數據從產生的地方遷移的話,產生的延遲對于延遲敏感型應用來說是不可接受的。

每當新的趨勢出現,各種創新創業公司都會冒出來,沿著不同的技術路線開發不同的技術方案,計算型存儲與許多新型的技術門類一樣,也缺少一些標準。

為此,SNIA專門成立了一個專門面向計算型存儲的技術工作組,該工作組由NGD和SK Hynix共同主持,有20多家公司參與其中。

451 Research的一份報告上簡要介紹了計算型存儲,近日這份報告還將出現在SNIA的官網上。

Blocks & Files 網站上也能看到這份報告,這里簡要介紹幾個創新公司吧。

NGD Systems

NGD通過將ARM Cortex-A53處理器集成到NVMe SSD控制器,這種簡單方式來實現現場數據處理。

數據仍然需要從NAND閃存芯片移動到處理器,但這是通過使用一個通用閃存接口(CFI)完成的,該接口的帶寬是主機接口的三到六倍。

這種做法的優勢在于,處理器運行著一個標準的操作系統(比如Ubuntu Linux),這就意味著Ubuntu上運行的任何軟件都能用于現場計算,NGD的硬盤本身在這里可以當成標準的SSD來用。

NGD沒有具體說性能有多大提升,只是說,相對于上一代硬件,將圖像識別速度提高了兩個數量級,Hadoop的數據處理效率提高了40%以上。

三星Samsung

三星于2018年10月宣布推出SmartSSD,三星將其描述為智能子系統,而不是存儲設備,這是一套裝載了多個SmartSSD的服務器,這一做法其實類似于計算集群。

每個智能固態硬盤都基于三星的3D V-NAND TLC閃存做存儲部分,加上帶有ARM的賽靈思Zynq FPGA作為計算單元。三星的Smart SSD主要面向兩種工作負載:一方面是數據分析,一方面是存儲相關的事務,比如數據壓縮、重復數據消除和加密什么的。

跟NGD不一樣的是,SmartSSD不能運行標準的軟件,三星和賽靈思聯合開發了一個runtime庫來運行一些軟件。

據了解,這些設備目前正在超大規矩數據中心用戶和存儲系統廠商進行測試。

開發數據分析和機器學習的那個Bigstream展示了使用三星SmartSSD運行Apache Spark的demo,性能提升了三倍到五倍。

ScaleFlux

Scaleflux的CSS固態盤也把數據存儲與數據處理結合起來了。目前在售的CSS 1000系列PCIe卡或U.2盤有2TB-8TB容量,第三代產品將于今年晚些時候問世。

每個CSS固態盤也都是基于賽靈思的FPGA來做的,FPGA負責處理數據,同時又扮演閃存控制器的角色。CSS固態盤首先通過ScaleFlux軟件模塊集成到主機服務器和存儲環境中,然后,還能通過軟件模塊中公開的API來訪問計算功能。

另外,原來在SSD控制器里的FTL拿了出來,放到了軟件模塊里面。這意味著會占用一部分的主機的CPU資源,但ScaleFlux認為,作為系統軟件來運行有其固有優勢,比如可以進行一些優化來適應特定的工作負載什么的。

遺憾的是,將數據處理從服務器遷移到CSS固態盤需要改代碼,不過ScaleFlux提供現成的代碼包來加速應用程序遷移,支持Aerospike、Apache HBase、Hadoop和MySQL、OpenZFS文件系統和CEPH存儲系統。

ScaleFlux表示,中國的阿里巴巴就打算用CSS固態盤來加速PolarDB,PolarDB是阿里打造的一款集事務型和分析型于一體的數據庫,據了解,為了用這個盤,阿里巴巴自己改了代碼來進行適應,而且用了SacleFlux提供的API。

Eideticom

Eideticom的NoLoad并不常見,這也是一個計算型存儲,外型上是個2.5寸的U.2 NVMe SSD,內部包含賽靈思的FPGA加速器,還有一個小的內存。

Eideticom這套東西的背后主要利用了PCIe總線的優勢,PCIe總線可以在NoLoad加速器和NVMe SSD存儲之間快速移動數據,很少或根本不牽涉主機CPU。

這樣做的好處在于,由于計算型存儲的計算部分和存儲部分是分離的,所以,計算部分和存儲分部可以獨立擴展。

Eideticom此前一個DEMO顯示,將18塊固態硬盤一共160GB的傳輸速率連到六塊NoLoad上,對硬盤上的數據做壓縮,而CPU的使用率不到5%。

Eideticom表示,一塊NoLoad可以以超過3GB/秒的速度壓縮或解壓縮數據。所以,Eideticom主打的場景是數據壓縮和重復數據刪除,未來還將強化在加速數據分析方面的能力。

Nyriad

這家新西蘭的公司最初開發這套NSULATE系統的時候,其實是為了給SKA射電望遠鏡處理大規模數據使用的。

NSULATE方案不是硬件產品,而是一個Linux塊設備,是一套高性能的、適用于大規模存儲軟件RAID解決方案,它采用NVIDIA的GPU作為存儲控制器,以深度奇偶校驗計算來執行擦除編碼,實現非常高的數據保護級別。

當然,那么貴的GPU不能只用來做存儲控制器吧,Nyriad表示GPU還可同時用于其他工作負載,比如機器學習和區塊鏈計算等。

小結

計算型存儲是一種新興技術,有分析師預測這一技術將很快普及開來。

新興工作負載比如機器學習和分析場景需要非常快速的數據訪問能力,計算型存儲應該是一個不錯的解決方案,隨著未來SCM的應用,計算型存儲的能力還將進一步放大。


欲獲知更多閃存存儲技術,市場新動態,敬請關注2019年全球閃存峰會。

未經允許不得轉載:DOIT » 把數據處理交給SSD來做,這就是當下最火的計算型存儲
分享到: 更多 (0)
河北快3推荐号码今天