产品文档

数据开发治理平台

2024-11-25 01:48:19

FTP/SFTP数据源

FTP(File Transfer Protocol)是TCP/IP协议组中的协议之一,是Internet文件传送的基础,使用 TCP 进行传输。SFTP(SSH File Transfer Protocol)与 FTP 有着几乎一样的语法和功能,但除了提供FTP的文件传输功能外,还通过加密传输来保证数据的安全性。

FTP/SFTP 数据源为您提供读取 FTP/SFTP 数据的单向通道能力,实现从 FTP/SFTP 读取数据,写入到不同目标数据源中,进行数据传输。

1 使用场景

  • 场景1:

    用户在京东云的云主机中搭建SFTP或者FTP,需要云上vpc和集成资源组的vpc进行打通

  • 场景2:

    用户在其他云或者本地的云主机中搭建SFTP或者FTP,需要和京东云进行打通;或者专线连接本地和独享集成资源组

2 使用限制

  • 正式开始部署前,您可参考FTP 文件共享服务器介绍,完成如下的准备工作:

    1. 开通京东云账户,若您还未注册京东云账号,可在京东云官网进行注册;

    2. 账户开通后,需要进行实名认证;

    3. 购买一台或多台云主机或者轻量云主机产品;

    4. 如果在轻量云主机搭建FTP或SFTP,需要在防火墙中配置21端口或者22端口;

      如果在云主机搭建FTP或SFTP,需要在安全组中配置入站规则的21端口或22端口

  • 如果在云主机上搭建FTP或SFTP,您可参考安全组配置介绍,在安全组上完成配置:

    • 安全组云主机之间通信前,会逐一匹配其绑定的安全组下的安全组规则,安全组是有状态的,可根据业务需要配置安全组规则,如安全组有相关规则支持时,则可进行通信。安全组规则包括如下信息:

    属性 说明 示例
    优先级 定义安全规则生效的顺序,取值支持1~100的整数,数值越小优先级越高,先生效,默认值为1,若优先级相同时,拒绝策略先生效 10
    策略 定义安全规则的授权策略,默认值为接受 接受
    类型 常用的协议类型,包括自定义TCP、自定义UDP、ICMP 自定义TCP、ICMP等
    协议 根据应用类型选择,显示所属协议类型 ssh、TCP
    目标端口 安全组作用的云主机端口或端口范围,取值1-65535 如"22"或端口范围如"20-22"
    源IP 入站规则独有属性,允许访问的IP地址段(CIDR) 10.0.0.1/32,0.0.0.0/0
    目的IP 出站规则独有属性,允许被访问的IP地址(CIDR) 10.0.0.1/32,0.0.0.0/0
    备注 标识规则用途等 属于A业务
    创建时间 创建安全组规则的时间 2021-11-22 12:00:00
  • 创建实例资源时可选择默认安全组,或新建安全组,新建安全组时默认拒绝所有出/入云资源的流量;您可以随时添加或删除安全组的规则,新规则会自动应用于与该安全组相关联的所有云主机。

    京东云提供三种默认安全组,具体规则如下:

    • Linux安全组开放22端口 :仅暴露入方向 SSH 登录的 TCP 22端口,出方向端口全通;

    • Windows 安全组开放3389端口:仅暴露入方向 MSTSC 登录的TCP 3389端口,出方向端口全通;

    • 默认安全组开放全部端口:暴露全部端口到公网和内网,有一定安全风险,请慎重选择

  • FTP/SFTP Reader 支持读取 CSV、TXT 和 Zip几种格式的远程文件。

    • CSV:单条记录按行分隔,单条记录内部默认按英文逗号分隔(可更改行内分隔符)

    • TXT:文本文件,单条记录按行分隔,单条记录内部可配置常用分隔符(如逗号、空格等)或自定义分隔符,支持 GBK 和 UTF-8 字符集。

    • Zip:压缩文件,支持不解压直接读取其中的 CSV 或 TXT 文件。当远程文件为 Zip 格式时,FTP/SFTP Reader 可以自动识别并读取压缩包内的文件,无需手动解压。

注意事项
请保证配置的用户有数据源对应的操作权限,否则数据集成同步任务会因为权限问题执行失败。

3 支持的字段类型

FTP/SFTP 离线读支持的字段数据类型如下:

类型分类 支持字段类型
整数类 int、long
浮点类 double
字符串类 string
时间类 date
布尔类 boolean

4 配置离线同步任务

4.1数据源注册

  • 单击数据源管理菜单,新建数据源

  • 选择【FTP/SFTP】类型,进行注册

4.1.1京东云实例模式/非云上实例模式

参数 说明
基本信息
*接入方式 京东云实例模式/非云上实例模式
*数据源类型 FTP/SFTP
*数据源名称 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。
数据源描述 200个字符以内。
连接信息
*协议类型 目前支持 FTP、SFTP 协议。
*Host 连接 FTP/SFTP 时,使用的主机名或IP地址。
*Port FTP/SFTP 协议配置的端口号:SFTP 默认使用 22 端口传输;FTP 默认使用 21 端口传输。
根目录路径 该路径是根目录的绝对路径,示例:/upload
*用户名 访问 FTP/SFTP 协议时的登录用户名信息。
*密码 访问 FTP/SFTP 协议时的密码信息。
*密钥 输入密钥或者上传license文件

4.2 可视化配置同步任务

4.2.1 源与目标数据源配置

  • 选择您需要读取和写入的数据源,并于该工作空间绑定的独享集成资源组进行连通性测试

  • 如连通性连接失败,具体排查详情见网络配置

  • 输入任务名称和任务描述,即可完成源与目标源的配置

4.2.2 字段映射配置

4.2.2.1 FTP/SFTP读取配置

  • 配置完成第一步后,您可根据实际场景,配置FTP/SFTP同步映射规则,以下为您介绍FTP/SFTP映射规则配置的参数说明

    FTP/SFTP源数据源配置

    参数 说明 备注
    *数据源类型 FTP/SFTP
    *数据源名称 选择需要抽取的数据源名称
    *文件类型 txt,csv,zip
    *文件路径 填写路径,例如/CSV/{TX_DATE}/data.txt支持动态路径抽取文件,根据数据日期读取每天新增文件
    分隔符 可下拉选择分隔符,英文逗号,英文分号,空字符串,竖线(|),字符(RS)同时支持自定义输入自定义输入可以输入字母,数字,特殊字符提示:自定义可根据ascii码表输入字母,数字,特殊字符
    编码 UTF-8、GBK
    导入起始行 根据配置数据,例如N,从N+1行开始读取,默认最小是1
    success检测 根据实际情况,选择是否开启 Success 标签检测。
    若开启检测 Success 标签,success_file_path 下必须有 success 文件存在才会执行任务,若 success 文件不存在会抛 runtime 异常,终止执行程序。且开启后,需配置以下信息:
    1.Success 标签路径:支持自定义标签文件路径,如:/var/ftp/test001/_success.csv 2.超时时间:客户端单次请求超时时间,单位ms。
    3.重试次数:检查 success 标签重试次数,默认 60次,每次间隔 1分钟,最大值为 1440 即 24小时

    FTP/SFTP目标数据源配置

    参数 说明 备注
    *数据源类型 FTP/SFTP
    *数据源名称 选择需要写入的数据源名称
    *文件类型 txt,csv,zip
    *文件路径 填写路径,例如/CSV/{TX_DATE}/data.txt支持动态路径抽取文件,根据数据日期读取每天新增文件 写入时,需按照数据源根路径拼接文件路径进行写入
    分隔符 可下拉选择分隔符,同时支持自定义输入
    编码 UTF-8、GBK
    写入模式 FTP /SFTP支持三种写入模式:
    1.append:写入前不做任何处理,直接使用 filename 写入,保证文件名不冲突 。
    2.nonConflict:文件名重复时报错 。
    3.overwrite:写入前清理以文件名为前缀的所有文件。

4.2.2.2 FTP/SFTP写入配置

可视化离线读 FTP/SFTP,数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:

  • 同行映射:您可在配置完目标端字段信息后,单击源端字段映射中的同行映射按钮,进行同名字段映射配置。

  • 手动添加:单击添加字段按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。

  • 批量导入:单机下载模板按钮,可以下载模版,填充后上传表结构系统将批量读取表格中的映射关系。

4.2.3 同步规则配置

将字段映射完成配置,以下将为您介绍如何配置同步规则。

配置 说明
运行规则
调度类型 支持周期调度、一次性调度、手动调度
运行频率 支持天、周、月、小时、分钟。根据配置的周期,可设置在每个周期下需要开始执行的时间
预警规则
预警通知人 当任务达到某些预警时机,进行预警通知的接收人
预警方式 站内信,邮件
预警时机 最终失败;每次失败;成功完成;延迟启动监控:设置该时间后,任务未在该时间启动系统将发出告警;延迟结束监控:设置该时间后,任务未在该时间结束系统将发出告警
通道控制
任务并行度 定义源端读取与目标端写入的最大并发数,并行度最大支持1000
同步速率 支持设置同步速率,若配置为不限流,则无需限流;配置为限流,则需设置最大支持的同步速率
脏数据处理策略 配置脏数据容忍上限
文档反馈

开始与售前顾问沟通

可直接拨打电话 400-098-8505转1

我们的产品专家为您找到最合适的产品/解决⽅案

在线咨询 5*8⼩时

1v1线上咨询获取售前专业咨询

点击咨询
企微服务助手

专业产品顾问,随时随地沟通