1、鲲鹏生态系统中,OpenEuler操作系统是华为社区开源版。
2、Elasticsearch底层基于Redis开源软件开发的。
3、ES中用于集群监控、查询、配置的插件去Head。
4、Hive支持MapReduce、Tez、Spark等执行引擎。
5、Hbase的特点是一个分布式,基于列示存储的数据库;适合存储半结构化和非结构化的数据;主从架构,Hmaster为主节点,HregionServer为从节点;为NULL的数据不会被存储。
6、MapReduce中,Reduce流程可能包含Copy、Sort、Merge、Reduce。
7、Spark算子:map、Filter、ReduceBykey、join。
8、Flink提供本地、集群、云部署方案。
9、Flink事件的时间分为ingestion time、processing time、event time。
10、Flume支持的RPC协议类型有Avro、Thrift。
11、Kafka消息传输保障通常会选用的策略:At most Once、At Lease Once。
12、MRS中,HeteEngine依赖HDFS、KrbServer。
13、MapReduce中Map阶段的Partition、Sort、Merge阶段是必须执行的。
14、Flume是流与批一体处理框架。
15、Kafka除了进行消息的转发,同时也会保存消息。
16、ClickHouse依靠ReplicatedMergeTree引擎与Zookeeper实现了复制表机制,用户在创建表时可以通过指定引擎选择该表是否高可用,每张表的分片与副本是相互独立的。
17、ES是基于Lucene的全文检索服务,也可以作为NoSQL数据库使用。
18、DataArts Studio支持将MapReduce服务作为数据湖底座,进行数据集成,开发与治理。
19、表引擎在ClickHouse中的作用十分关键,MergeTree系列引擎中,ReplacingMergeTree引擎适合于清除重复数据节省存储空间,但是不保证重复数据不出现,一般不建议使用。
20、MRS集群类型包括分析集群、流式集群和混合集群。
21、MRS集群创建早VPC的子网内,通过逻辑方式进行网络隔离,为用户的MRS集群提供安全,隔离的网络环境。
22、DataArts Studio使用EIP打通与公网间的网络通信。
本文概述了华为社区开源的OpenEuler操作系统,Elasticsearch的底层技术和插件,以及Hadoop生态系统(Hive、MapReduce、Spark、Flink等)的组件和功能,包括流处理工具Flume,Kafka的消息传输策略,ClickHouse的复制表机制,以及MRS集群的网络隔离措施。此外,还提到了DataArtsStudio在数据集成和治理中的应用。

4954

被折叠的 条评论
为什么被折叠?



