三合一消息科技有限公司是一家专一于工业互联网畛域大数据与人工智能研发的企业。
公司产品包括物联网平台、数字孪生、专域数驱、大数据平台、工业算法平台和低代码平台等六款产品。
咱们的数据平台分为数据接入层、数据平台层、数据服务层和调度层。
数据接入层包括离线采集平台和实时采集平台,离线采集关键基于SeaTunnel的Spark引擎,实时采集则依赖于Flink CDC、Kafka数据源和物联网平台。
数据平台层涵盖了数据开发、实时计算、AI算法和数据资产等。
数据服务层则由标签治理服务和数据服务造成。
基础组件包括MySQL、Oracle、PostgreSQL等相关型数据库以及Doris、ClickHouse等OLAP数据库。
数据底座基于CDH集群构建,蕴含Flink、Spark、Hive、Kafka、Yarn等组件。
在调度层,咱们之前经常使用了Airflow,但由于一些痛点,起初改换为Apache DolphinScheduler。
义务组件包括DataX离线义务、HiveSQL、FlinkSQL、Python脚本和Spark等。
服务层担任义务治理、运维、脚本构建、资源治理、数据服务、数据入湖和即席查问等配置。
监控包括义务监控、日志监控和基础监控,咱们经过Yarn Restful监控实时义务运转状况,实时日志监控经过Kafka和Flink启动实时剖析,离线日志监控则经常使用ELK,数据同步到数仓启动离线剖析。
基础监控驳回Prometheus和Grafana。
调度架构引见,之前的架构由K8s、Airflow、Celery、redis、Mysql和NFS组成。
NFS作为DAG目录共享,Celery Executor由队列治理,HA打算经过K8s成功集群智能运维,智能拉起挂掉的Scheduler。
咱们面临Airflow的二次开发老本高、性能疑问和镜像过大等应战。
镜像大是由于打包Airflow镜像时须要蕴含Hadoop、Hive等客户端,集成工具也被打包,造成镜像体积大。
部署环节中,常发生节点Pod加载失败或起不来的疑问,性能疑问随着DAG目录增多,创立义务时耗时参与,页面展现提前。
基于这些疑问,咱们选用了Apache DolphinScheduler作为新的调度框架。
DolphinScheduler驳回多Worker多Master的高可用架构,Web UI界面经过Restful API与APIService交互。
上班流操作记载在数据库中,口头义务后发生义务虚例和日志,APIService与WorkerService交互,后者蕴含LoggerService。
Master担任义务DAG切分和定时义务启动,将义务下发给Worker口头。
Worker口头义务后,结果反应给Master,AlertService监控义务失误并触发告警,集群经过Zookeeper成功高可用。
DolphinScheduler允许DAG,提供丰盛的义务类型(约30种),允许自定义参数,实用于离线场景的增量解决或数据补录。
开发模式便捷,基于界面拖延拽即可生成上班流,无需编写代码。
它还允许多租户配置和告警模块,与国际盛行的企业通信平台集成良好,成功告警配置。
选用Apache DolphinScheduler作为调度框架的关键要素是其多Worker多Master的高可用架构、繁难的开发模式、多租户允许等个性。
DolphinScheduler允许多种义务类型,并且允许自定义义务类型,须要先中断以后义务能力口头补数操作。
它允许多租户配置,关于经常使用Java的团队是关键的考量点,基于Python开发或者会参与复杂性。
平台关键基于DS构建,允许离线数据集成和离线数据开发,平台上班流程包括DS插件集成、运行用户体验提升、数据集成和数据开发平台构建等。
以后平台曾经允许实时离线OLAP数据源、服务数据、数据资产等场景,正在探求数据规范化和目的平台树立。
咱们欢迎有相关阅历的好友与咱们交换和讨论。
未来平台开展将更好地服务于客户,等候与业界好友独特探求和翻新。
十分感谢大家的倾听,宿愿我的分享能给大家带来启示和协助。
欢迎对咱们的平台和技术感兴味的好友与咱们咨询交换。
本文由 白鲸开源科技 提供颁布允许!
本文地址: https://w6.hk/hlwzxwz/b11e35f127067a15f64f.html
上一篇:AI绘画软件画进去的图可以商用吗ai绘画软件...