ETL工作流必须以数据源(输入)为起点,以目标源(输出)为终点:从数据源中抽取数据,然后利用内置数据预处理(转换)节点进行数据加工处理,再将处理后的数据输出到目标源中。
数据源(输入)支持的数据库有:MySQL,Oracle,Clickhouse,DB2,SQL Server,Vertica,Inforbright,Presto,Hive,星环-Inceptor,Postgresql,GreenPlum,Gauss100,Gauss200,Gbase 8A,Gbase 8S,Gbase 8T,达梦6,达梦7,Sybase,Hana,Aliyun AnalyticDB,Aliyun MaxCompute,MariaDB,华为Fusioninsight,Teradata、Teradata_V12、神通(单节点/集群)、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin(麒麟)、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase、OceanBase_Oracle、SelectDB、SparkSQL、Other、TIDB、MogDB 等数据库。关于数据源的更多信息请参见 数据源 章节。
数据预处理(转换)方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。
目标源(输出)支持的数据库有:MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环(用户名密码方式 )、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)、SelectDB、TIDB、MogDB等。 关于目标源的更多信息请参见 目标源 章节。
ETL工作流开发界面的操作入口:
系统导航栏中选择 数据准备,在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项,进入“新建自助ETL”界面:
ETL流程界面,用于开发工作流。如下图所示:
界面主要分为如下几个区域:
1、工具栏:用于对当前流程进行的操作,详情请参见 工具栏。
2、节点面板:显示当前流程可拖拽使用的节点,顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍。
3、画布区:用于开发ETL工作流。
4、节点配置区:用于对画布中所选节点的参数和属性进行配置。
5、数据面板:用于查看选择的节点执行后的输出数据。
工具栏中有如下按钮,用于支持工作流的相关操作:
这些按钮从左至右说明如下:
在“设置”面板上,当画布中无节点选中时显示的是流程本身的属性。
各节点的右键菜单支持相关操作。节点资源的右键菜单如下:
该右键菜单各项的说明如下:
4.4 画布工具
对画布进行操作,从左到右依次是:缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。
4.5 数据面板
用于查看选择的节点运行后的输出数据。打开数据面板,点击节点可查看节点的输出数据。
各项说明如下:
我们的产品专家为您找到最合适的产品/解决⽅案
1v1线上咨询获取售前专业咨询
专业产品顾问,随时随地沟通