Apache Atlas安装数据治理

Atlas概述

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。

Atlas架构原理

alt

Atlas安装及使用

1)Atlas官网地址:https://atlas.apache.org/

2)文档查看地址:https://atlas.apache.org/0.8.4/index.html

3)下载地址:https://www.apache.org/dyn/closer.cgi/atlas/0.8.4/apache-atlas-0.8.4-sources.tar.gz

HDP安装Solr5.2.1

HDP安装Atlas0.8.2

[root@hadoop101 atlas]$ bin/import-hive.sh
Using Hive configuration directory [/opt/module/hive/conf]
Log file for import is /opt/module/atlas/logs/import-hive.log
log4j:WARN No such property [maxFileSize] in org.apache.log4j.PatternLayout.
log4j:WARN No such property [maxBackupIndex] in org.apache.log4j.PatternLayout.

输入用户名:admin;输入密码:admin
Enter username for atlas :- admin
Enter password for atlas :-
Hive Meta Data import was successful!!!

显示所有hive tables

alt

选择数据库中的表可以看到之间的血缘关系图

alt

字段的血缘关系

alt

总结

Apache Atlas为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力,其与Apache Falcon,Apache Ranger相互整合可以形成完整的数据治理解决方案。但是Atlas目前还是Apache孵化项目,尚未成熟,有待发展。

Atlas目前还存在以下一些需要改进之处:

缺乏对元数据的全局视图,对元数据的血缘追溯只能够展示具体某张表或某个SQL的生命周期(其前提是用户必须对Hadoop的元数据结构十分清楚,才能够通过Atlas的查询语句去定位自己需要了解的表)

0.8以前的版本,对元数据只能进行只读操作,例如只能展示Hive的表但是不能创建新表

与Hadoop各组件的集成尚待完善,例如Atlas对Hive的元数据变更操作的捕获只支持hive CLI,不支持beeline/JDBC

文章目录
  1. 1. Atlas概述
  2. 2. Atlas架构原理
  3. 3. Atlas安装及使用
  4. 4. HDP安装Solr5.2.1
  5. 5. HDP安装Atlas0.8.2
  6. 6. 显示所有hive tables
  7. 7. 选择数据库中的表可以看到之间的血缘关系图
  8. 8. 字段的血缘关系
  9. 9. 总结
© 2015-2020 zhangdeshuai 粤ICP备15075505号 本站总访问量