大数据工具(一)parquet文件生成与上传
时间:2024-08-19 点击:
次 来源:网络 作者:佚名 - 小 + 大
- DataX-ETL工具仅支持ORC、TEXTFILE两种格式,对Parquet文件的读取和上传并不支持;
- 魔方开发私有数据上传需要对EXCEL、CSV格式的文件导入大数据数据库,创建私有表,私有数据的大小不确定,需要支持对大文件的高效上传;
- 魔方大数据查询采用计算引擎(impala、presto)的JDBC协议进行开发,插入数据采用JDBC的Insert语句,Hive-Insert其底层实现map-reduce效率很低;
- 目前公司、网站上缺少对大数据parquet存储格式的解析和写入的工具程序。
实际统计: 3000行 | 3min | <10s | 20万行 | - | <15s | 2、目标 - 扩展DataX插件,使DataX支持Parquet表文件的支持;
- 提升大文件上传效率;
- 搭建一个大数据的工具包,实现ETL、文件解析、数据源管理的工具。
3、parquet文件格式的介绍 TODO 4、具体实现 - 阅读presto-parquet源码,借鉴presto-parquet读写;
- 改进复用DataX对记录(record)、字段(column)、动态配置文件(configuration)、对外接口等
目前项目模块 类图 5、调用方式 1 2 3 4 5 | < dependency > < artifactId >hi-bigdata-parquet</ artifactId > < groupId >com.hisense.hiatmp</ groupId > < version >1.0-SNAPSHOT</ version > </ dependency > |
|