更新时间:2025-04-23 GMT+08:00
分享

Apache HDFS数据连接参数说明(内测)

表1 Apache HDFS连接

参数

是否必选

说明

数据连接类型

Apache HDFS连接固定选择为Apache HDFS。

数据连接名称

数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。

描述

为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。

标签

标识数据连接的属性。设置标签后,便于统一管理。
说明:

标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。

适用组件

选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。

说明:
  • 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。
  • 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员

基础与网络连通配置

是否使用集群配置

此参数用于选择用户已经创建好的集群配置。

您可以通过使用集群配置,简化Hadoop连接参数配置。默认:关闭。

URI

是否使用集群配置开关打开时显示该参数。

表示NameNode URI地址。可以填写为:hdfs://namenode实例的ip:8020。

IP与主机名映射

是否使用集群配置开关打开时显示该参数。

运行模式选择“EMBEDDED”“STANDALONE”时,该参数有效。

如果HDFS配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

KMS密钥

通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。
说明:
  • 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥
  • 仅支持通过对称密钥加密,暂不支持非对称密钥。

绑定Agent

DataArts Studio无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。CDM集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请参考创建CDM集群进行创建。

数据集成配置

配置文件路径

“是否使用集群配置”参数开启时,呈现此参数。集群配置文件的OBS存放路径。

keytab文件路径

认证类型为KERBEROS时显示该参数。

配置keytab文件的OBS存放路径。

Principal名称

认证类型为KERBEROS时显示该参数。

Kerberos认证用户名。kerberos集群时,需要上传相应的keytab文件。

属性配置

“数据集成”参数开启时,呈现此参数。可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。

数据源认证及其他功能配置

认证类型

访问集群的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
    说明:

    STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

相关文档

    OSZAR »