PyCharm本地开发pyspark并提交远程执行

最近在学习pyspark的开发,遇到些问题记录下。 我们在开发pyspark时经常需要进行测试,自己电脑上安装搭建一个spark环境代价有点高,目前有的同事在开发时,通常是开发完把代码贴出到本地测试集群进行测试,因此,能不能借助pycharm里的一个功能,连接本地测试集群的pyspark进行执行呢,经过一番搜索终于实现了这一个功能。 新建带有Virtualenv的工程Virtualenv是什么? Python 的第三方包成千上万,在一个 Python 环境下开发时间越久、安装依赖越多,就越容易出现依赖包冲突的问题。为了解决这个问题,开发者们开发出了 virtualenv,可以搭建虚拟且独立的 Python 环境。这样就可以使每个项目环境与其他项目独立开来,保持环境的干净,解决包冲突问...

Continue Reading →

分布式数据仓库在公司的应用与演变

本文只关注与分布式数据仓库在公司的使用和演变,不涉及任何技术细节。希望通过本文的总结,能让你对数据仓库在公司的应用与演变,以及相关技术栈有初步的认识。 数据仓库生态 如图为公司内部数据仓库生态,主要包括了三部分:数据采集,数据聚合和数据应用 数据采集 客户端用户行为日志采集,通过采集和分析用户行为日志,可以帮助运营团队合理化运营,商务团队智能化广告投放,数据挖掘团队精准化文章推荐,产品团队动态化把握版本迭代。 业务系统数据同步,主要同步有统计需求的业务数据和相关维度数据。业务数据,如微鲤看看金币流水,可定时将金币流水数据同步到数据仓库中,减轻每日频繁的统计对业务系统的影响,减少业务开发团队对数据统计需求的工作量。维度数据,如peacock投放的文章,广告等详情数据,同步这些数据是为...

Continue Reading →

Hive-Mongo外部表使用记录

统计需求需要在数据仓库中统计业务系统的数据,而这些数据存储在mongodb中,如何获取mongo中的数据并统计呢?下面记录下官网所提供的mongo-hadoop-hive方式来获取mongo中的数据。 官方:https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage hive-mongo外部表使用MongoStorageHandler实现hive-mongo外部表的映射,建表语句如下: 1234567891011121314151617181920use business;add jar hdfs://nameservice:8020/user/udf/mongo-hadoop-hive-1.5.1.jar;add jar hdfs...

Continue Reading →

Impala动态视图在即席查询中的妙用

查询视图视图仅仅是存储在数据库中具有关联名称的Impala查询语言的语句。 它是以预定义的SQL查询形式的表的组合。视图可以包含表的所有行或选定的行。 可以从一个或多个表创建视图。 创建视图没什么难度,这里总结下是视图在我们Ad-Hoc查询是怎么用的。 Ad-Hoc即席查询即席查询是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。 基于数据仓库中事实表的设计,我们的Ad-Hoc简单的架构如下图: 架构比较简单,主要借助Impala + parquet去查询HDFS中的数据,并借助kudu接收实时写入的数据, 在T+1日后,会将kudu中实时写入的数据转...

Continue Reading →

使用DataX实现离线同步分库分表数据

DataX简介DataX 是阿里巴巴内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。 DataX更像是一个数据枢纽,它可以读取多种数据源中数据,经过内部的转换又可以输出到多种数据源中。 其架构设计主要包含三部分: Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。 Framework:Framework用于连接reader和...

Continue Reading →

© 2019 GuoYL's Notes All Rights Reserved. 本站访客数人次 本站总访问量
Theme by hiero