| 產(chǎn)品背景 |
隨著大數(shù)據(jù)技術(shù)的發(fā)展,開(kāi)源大數(shù)據(jù)平臺(tái)的高可用性、高擴(kuò)展性、相對(duì)低成本的優(yōu)勢(shì)深受用戶的肯定,數(shù)據(jù)存儲(chǔ)和加工逐漸從傳統(tǒng)數(shù)據(jù)平臺(tái)向大數(shù)據(jù)平臺(tái)轉(zhuǎn)移將是大勢(shì)所趨。 傳統(tǒng)數(shù)據(jù)平臺(tái)一般采用傳統(tǒng)數(shù)據(jù)加工工具和以SQL為核心的存儲(chǔ)過(guò)程進(jìn)行數(shù)據(jù)加工,雖然成熟高效,但有平臺(tái)局限性,無(wú)法適應(yīng)大數(shù)據(jù)平臺(tái)。大數(shù)據(jù)平臺(tái)上數(shù)據(jù)存儲(chǔ)軟件種類較多,目前還沒(méi)有一個(gè)能夠得到廣泛認(rèn)可、成熟的、可跨數(shù)據(jù)存儲(chǔ)軟件的數(shù)據(jù)加工工具。 |
| 產(chǎn)品簡(jiǎn)介 |
基于Spark技術(shù)的大數(shù)據(jù)加工軟件,采用Spark核心組件搭建數(shù)據(jù)加工框架,利用Spark先進(jìn)的DAG執(zhí)行引擎及性能強(qiáng)大的基于內(nèi)存的多輪迭代計(jì)算技術(shù),對(duì)源數(shù)據(jù)進(jìn)行深度加工。其解決了傳統(tǒng)技術(shù)中在處理海量數(shù)據(jù)時(shí),IO吞吐量、系統(tǒng)資源存在瓶頸,擴(kuò)展困難且價(jià)格昂貴的缺陷。數(shù)據(jù)加工工具可以線性平滑擴(kuò)展,運(yùn)行速度快,運(yùn)行無(wú)需人工干預(yù),且易于管理和維護(hù),能充分滿足各行業(yè)特別是大企業(yè)在數(shù)據(jù)ETL方面的需要。 本產(chǎn)品采用Scala編程,與Spark完美結(jié)合,直達(dá)Spark內(nèi)核,提高了編程效率和大數(shù)據(jù)處理性能,同時(shí)保證了系統(tǒng)的高容錯(cuò)性和高可伸縮性。 產(chǎn)品提供可視化圖形化界面進(jìn)行ETL的全過(guò)程定義,界面操作簡(jiǎn)單,在易用性和可維護(hù)性方面較傳統(tǒng)ETL工具產(chǎn)品和直接編程,在效率上有數(shù)倍的提升。  產(chǎn)品圖形化開(kāi)發(fā)界面 |
| 產(chǎn)品功能
- 數(shù)據(jù)抽取。 支持關(guān)系型數(shù)據(jù)庫(kù)、結(jié)構(gòu)化數(shù)據(jù)文件(可壓縮)、HDFS文件、Hive文件等多種異構(gòu)數(shù)據(jù)源。
- 數(shù)據(jù)處理。 針對(duì)采集的數(shù)據(jù),結(jié)合元數(shù)據(jù)定義,組合“處理單元”實(shí)現(xiàn)轉(zhuǎn)碼、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、增轉(zhuǎn)全加工、拉煉表加工等一系列數(shù)據(jù)處理過(guò)程。
- 數(shù)據(jù)整合。 對(duì)當(dāng)天的增量數(shù)據(jù)和上一天的全量數(shù)據(jù)進(jìn)行數(shù)據(jù)整合,得到當(dāng)天全量數(shù)據(jù)。
- 數(shù)據(jù)輸出。 根據(jù)數(shù)據(jù)應(yīng)用系統(tǒng)對(duì)數(shù)據(jù)格式的要求,對(duì)當(dāng)天整合后數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換并輸出。數(shù)據(jù)輸出格式支持結(jié)構(gòu)化數(shù)據(jù)文件(可壓縮)、關(guān)系型數(shù)據(jù)庫(kù)、HDFS文件、Hive文件等。
- 內(nèi)部元數(shù)據(jù)管理。 將各種要素如數(shù)據(jù)源信息、源數(shù)據(jù)結(jié)構(gòu)、目標(biāo)數(shù)據(jù)格式、目標(biāo)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)轉(zhuǎn)換規(guī)則及表達(dá)式、ETL作業(yè)調(diào)度策略等進(jìn)行參數(shù)化定義和管理,并輸出元數(shù)據(jù)控制文件供ETL作業(yè)流程引擎使用。元數(shù)據(jù)管理又包含元數(shù)據(jù)定義、元數(shù)據(jù)檢查、元數(shù)據(jù)導(dǎo)出、元數(shù)據(jù)分析等功能模塊。
數(shù)據(jù)加工工具內(nèi)嵌元數(shù)據(jù)管理,具有元數(shù)據(jù)影響分析及自動(dòng)化變更功能,能快速響應(yīng)上游數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu)變化,更新受影響的數(shù)據(jù)加工工具程序。
- 數(shù)據(jù)加工工具提供完備的開(kāi)發(fā)單元組件,在覆蓋傳統(tǒng)ETL工具常用開(kāi)發(fā)單元組件的基礎(chǔ)上,增加了一些特有的開(kāi)發(fā)組件,能滿足數(shù)據(jù)加工需求,開(kāi)箱即用,無(wú)需額外編程。
|
| 產(chǎn)品特性 |
- 無(wú)需編程,開(kāi)箱即用,自動(dòng)運(yùn)行。該產(chǎn)品快速部署,開(kāi)箱即用,成熟完備的ETL工具箱,涵蓋常用的數(shù)據(jù)ETL需求;元數(shù)據(jù)一旦設(shè)置完成,整個(gè)ETL就會(huì)自動(dòng)流水線式運(yùn)行數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)整合、數(shù)據(jù)輸出等模塊,無(wú)需人工干預(yù)。源數(shù)據(jù)變更,只需修改相應(yīng)的元數(shù)據(jù),無(wú)需編程。
- 內(nèi)存計(jì)算,性能翻倍,線性拓展。該產(chǎn)品采用Scala編程語(yǔ)言完美結(jié)合Spark;利用Spark分布式內(nèi)存并行計(jì)算技術(shù),將中間計(jì)算結(jié)果緩存在內(nèi)存并進(jìn)行多輪迭代計(jì)算,減少磁盤I/O;采用多線程并發(fā)運(yùn)行處理作業(yè)提高ETL的性能和資源利用率;本產(chǎn)品較傳統(tǒng)架構(gòu)的ETL產(chǎn)品,在運(yùn)行速度上有數(shù)倍的提升。
|
| 產(chǎn)品應(yīng)用場(chǎng)景 |
產(chǎn)品面向擁有海量數(shù)據(jù)的企業(yè),產(chǎn)品提供數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)加工、數(shù)據(jù)加載等一系列功能,幫助企業(yè)實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的快速部署。 |