整理工作多年涉猎的技术与积累。
评价体系(递进):
★ 了解基本原理 。
★★ 用过,知道基本调优。
★★★ 有项目经验,成体系的使用+调优+排错流程。
★★★★ 了解代码框架,有阅读源码,熟悉API,看过不少PPT。
★★★★★ ?熟悉。能在源码级修改/优化。丰富的使用和调优以及处理问题经验。
编程语言
1. java 2014-至今?? ?★★★? ??
2. c/c++ 2014?? ?★★
3. scala 2016-至今?? ?★★★★
4. python 2018?? ?★★
数据库/组件
1. impala:CDH推出的MPP 2014.03-2014.09?? ?★★★
2. mdss:基于Lucene的存储检索系统 ?2014.09-2016.08 ??★★★★★
3. spark:分布式计算框架 2016.09-至今 ?★★★★★
4. greenplum/hawq:MPP数据库?2015.06-2016.09 ?★★★
5. hive:HDFS数据仓库2015-至今 ?★★★
6. hbase/phoenix?:HDFS的宽表KV技术 ?2018-至今 ?★★★
7. elasticsearch:全文检索数据库 2017.02-至今 ?★★★★
8. 图数据库/janusgraph/hugegraph/gremlin/dgraph:分布式图数据库 插件化的存储引擎和索引提速引擎 ?2019.10 -至今? ★★
9. flink : 流计算和分布式计算框架 2020.09 至今?★★★★
10. presto/(与华为的openLookeng):ad-hoc查询工具2020.10 至今 ★★★
11.京东开源的chubao分布式文件系统:ops超越ceph?2020.10 ?★★
12. 一些文件格式+索引底层研究:ORC、稀疏索引、Zorder、carbondata?2021 至今 ★★
大数据/组件
1. hadoop/yarn/zk/hdfs:大数据基础组件 ?2015-至今 ?★★★
2. hadoop权限体系/kerberos:权限和身份认证系统 ?2018 ?★★★
3.?hue:CDH推出的大数据可视化工作站 ?2018 ?★★★
4. cdh:大数据平台 2015-至今?★★★★
5. hdp:大数据平台 2018 ?★★
6. kylin:基于hbase+hive/spark,预聚合方式提速的olap业务引擎 ?2019.07 ?★★
7.?prometheus+grafana:时序数据库,标签+值的方式存储。可视化。 2018.04?★★★
8. TDengine:涛思数据库,轻量高效的时序数据库,存储设计值得借鉴。2019.08 ★★
中间件/底层技术
1. lucene:全文检索技术原理 ?2014.07-2015.08 ?★★★
2. kafka:分布式高吞吐消息队列 2018-至今?★★★
3. jvm/gc/调试技术:底层技术 ?2017-至今 ?★★★
4. openstack:虚拟化、云计算框架 ?2019.07?★★
5. ceph/ceph对象存储/ceph文件系统:去中心的统一分布式存储服务 2019.05 ?★★★
6. docker:容器技术 2018.03?★★
7. mysql/redis/rocksdb等:大众轻量小型数据库 ?2015-至今 ?★★★
8. haproxy:http负载均衡、高可用、反向代理轻量库 ?2018.04 ?★★
9. jetty/jersey:轻量http容器 + REST框架 2018?★★
10. 数据库底层技术:索引、压缩、行列存储、查询规划、分布式mpp计算等 2015-至今?★★
11. 大数据领域常见 rpc/序列化框架 thrift、protobuf、avro等?2015-至今?★★
12. ignite :分布式缓存/内存网格/分布式队列/。。用途广泛的中间件 202108?★★★
13. java轻量缓存技术: ehcache/guava?202108?★★★
其他工具链
1. linux系统/shell/centos:通用基础技能 2014.06-至今 ?★★★
2. maven :依赖管理框架 2016-至今 ?★★★
3. git :代码管理和协作工具 2017-至今 ?★★★
4.?
了解未深入
1. carbondata:hdfs + 索引的方案 2017?★
2. cuda编程/gpu:简单任务的超多核并行 ?2017?★
3. clickhouse 2019.03?★★★,2021-至今
4. 机器学习、深度学习 2018?★
5. RedisGraph 2020.05?★
6. Spring/nodejs/vue 2020 ★