Java开发人员使用哪些大数据工具？

发布时间：2019-06-04 20:24:31 所属栏目：建站来源：程序撸sir

导读：副标题#e# 1、MongoDB最受欢迎的，跨平台的，面向文档的数据库。 MongoDB是一个基于分布式文件存储的数据库，使用C++语言编写。旨在为Web应用提供可扩展的高性能数据存储解决方案。应用性能高低依赖于数据库性能，MongoDB则是非关系数据库中功能最丰富，最

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引;也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

与ElasticSearch一样，同样是基于Lucene，但它对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化。

9、Spark ——Apache Software Foundation中最活跃的项目，是一个开源集群计算框架。

Java开发人员使用哪些大数据工具？

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Java开发人员使用哪些大数据工具？

10、Memcached ——通用分布式内存缓存系统。

Memcached是一套分布式快取系统，当初是Danga Interactive为了LiveJournal所发展的，但被许多软件(如MediaWiki)所使用。Memcached作为高速运行的分布式缓存服务器，具有以下的特点：协议简单，基于libevent的事件处理，内置内存存储方式。

11、Apache Hive ——在Hadoop之上提供类似SQL的层。

Java开发人员使用哪些大数据工具？

Hive是一个基于Hadoop的数据仓库平台。通过hive，可以方便地进行ETL工作。hive定义了一个类似于SQL的查询语言，能够将用户编写的SQL转化为相应的Mapreduce程序基于Hadoop执行。目前，已经发布了Apache Hive 2.1.1 版本。

12、Apache Kafka ——最初是由LinkedIn开发的高吞吐量，分布式订阅消息系统。

Java开发人员使用哪些大数据工具？

Apache Kafka是一个开源消息系统项目，由Scala写成。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。Kafka维护按类区分的消息，称为主题(topic)。生产者(producer)向kafka的主题发布消息，消费者(consumer)向主题注册，并且接收发布到这些主题的消息。kafka以一个拥有一台或多台服务器的集群运行着，每一台服务器称为broker。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页