| 產(chǎn)品背景 |
隨著大數(shù)據(jù)技術(shù)的發(fā)展,開源大數(shù)據(jù)平臺的高可用性、高擴(kuò)展性、相對低成本的優(yōu)勢深受用戶的肯定,數(shù)據(jù)存儲和加工逐漸從傳統(tǒng)數(shù)據(jù)平臺向大數(shù)據(jù)平臺轉(zhuǎn)移將是大勢所趨。 傳統(tǒng)數(shù)據(jù)平臺一般采用傳統(tǒng)數(shù)據(jù)加工工具和以SQL為核心的存儲過程進(jìn)行數(shù)據(jù)加工,雖然成熟高效,但有平臺局限性,無法適應(yīng)大數(shù)據(jù)平臺。大數(shù)據(jù)平臺上數(shù)據(jù)存儲軟件種類較多,目前還沒有一個能夠得到廣泛認(rèn)可、成熟的、可跨數(shù)據(jù)存儲軟件的數(shù)據(jù)加工工具。 |
| 產(chǎn)品簡介 |
基于Spark技術(shù)的大數(shù)據(jù)加工軟件,采用Spark核心組件搭建數(shù)據(jù)加工框架,利用Spark先進(jìn)的DAG執(zhí)行引擎及性能強(qiáng)大的基于內(nèi)存的多輪迭代計(jì)算技術(shù),對源數(shù)據(jù)進(jìn)行深度加工。其解決了傳統(tǒng)技術(shù)中在處理海量數(shù)據(jù)時,IO吞吐量、系統(tǒng)資源存在瓶頸,擴(kuò)展困難且價格昂貴的缺陷。數(shù)據(jù)加工工具可以線性平滑擴(kuò)展,運(yùn)行速度快,運(yùn)行無需人工干預(yù),且易于管理和維護(hù),能充分滿足各行業(yè)特別是大企業(yè)在數(shù)據(jù)ETL方面的需要。 本產(chǎn)品采用Scala編程,與Spark完美結(jié)合,直達(dá)Spark內(nèi)核,提高了編程效率和大數(shù)據(jù)處理性能,同時保證了系統(tǒng)的高容錯性和高可伸縮性。 產(chǎn)品提供可視化圖形化界面進(jìn)行ETL的全過程定義,界面操作簡單,在易用性和可維護(hù)性方面較傳統(tǒng)ETL工具產(chǎn)品和直接編程,在效率上有數(shù)倍的提升。  產(chǎn)品圖形化開發(fā)界面 |
| 產(chǎn)品功能
- 數(shù)據(jù)抽取。 支持關(guān)系型數(shù)據(jù)庫、結(jié)構(gòu)化數(shù)據(jù)文件(可壓縮)、HDFS文件、Hive文件等多種異構(gòu)數(shù)據(jù)源。
- 數(shù)據(jù)處理。 針對采集的數(shù)據(jù),結(jié)合元數(shù)據(jù)定義,組合“處理單元”實(shí)現(xiàn)轉(zhuǎn)碼、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、增轉(zhuǎn)全加工、拉煉表加工等一系列數(shù)據(jù)處理過程。
- 數(shù)據(jù)整合。 對當(dāng)天的增量數(shù)據(jù)和上一天的全量數(shù)據(jù)進(jìn)行數(shù)據(jù)整合,得到當(dāng)天全量數(shù)據(jù)。
- 數(shù)據(jù)輸出。 根據(jù)數(shù)據(jù)應(yīng)用系統(tǒng)對數(shù)據(jù)格式的要求,對當(dāng)天整合后數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換并輸出。數(shù)據(jù)輸出格式支持結(jié)構(gòu)化數(shù)據(jù)文件(可壓縮)、關(guān)系型數(shù)據(jù)庫、HDFS文件、Hive文件等。
- 內(nèi)部元數(shù)據(jù)管理。 將各種要素如數(shù)據(jù)源信息、源數(shù)據(jù)結(jié)構(gòu)、目標(biāo)數(shù)據(jù)格式、目標(biāo)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)轉(zhuǎn)換規(guī)則及表達(dá)式、ETL作業(yè)調(diào)度策略等進(jìn)行參數(shù)化定義和管理,并輸出元數(shù)據(jù)控制文件供ETL作業(yè)流程引擎使用。元數(shù)據(jù)管理又包含元數(shù)據(jù)定義、元數(shù)據(jù)檢查、元數(shù)據(jù)導(dǎo)出、元數(shù)據(jù)分析等功能模塊。
數(shù)據(jù)加工工具內(nèi)嵌元數(shù)據(jù)管理,具有元數(shù)據(jù)影響分析及自動化變更功能,能快速響應(yīng)上游數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu)變化,更新受影響的數(shù)據(jù)加工工具程序。
- 數(shù)據(jù)加工工具提供完備的開發(fā)單元組件,在覆蓋傳統(tǒng)ETL工具常用開發(fā)單元組件的基礎(chǔ)上,增加了一些特有的開發(fā)組件,能滿足數(shù)據(jù)加工需求,開箱即用,無需額外編程。
|
| 產(chǎn)品特性 |
- 無需編程,開箱即用,自動運(yùn)行。該產(chǎn)品快速部署,開箱即用,成熟完備的ETL工具箱,涵蓋常用的數(shù)據(jù)ETL需求;元數(shù)據(jù)一旦設(shè)置完成,整個ETL就會自動流水線式運(yùn)行數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)整合、數(shù)據(jù)輸出等模塊,無需人工干預(yù)。源數(shù)據(jù)變更,只需修改相應(yīng)的元數(shù)據(jù),無需編程。
- 內(nèi)存計(jì)算,性能翻倍,線性拓展。該產(chǎn)品采用Scala編程語言完美結(jié)合Spark;利用Spark分布式內(nèi)存并行計(jì)算技術(shù),將中間計(jì)算結(jié)果緩存在內(nèi)存并進(jìn)行多輪迭代計(jì)算,減少磁盤I/O;采用多線程并發(fā)運(yùn)行處理作業(yè)提高ETL的性能和資源利用率;本產(chǎn)品較傳統(tǒng)架構(gòu)的ETL產(chǎn)品,在運(yùn)行速度上有數(shù)倍的提升。
|
| 產(chǎn)品應(yīng)用場景 |
產(chǎn)品面向擁有海量數(shù)據(jù)的企業(yè),產(chǎn)品提供數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)加工、數(shù)據(jù)加載等一系列功能,幫助企業(yè)實(shí)現(xiàn)大數(shù)據(jù)平臺的快速部署。 |