Apache Kafka快速入门指南

发布时间：2019-11-14 12:20:58 所属栏目：教程来源：AiChinaTech

导读：副标题#e# 【线上直播】11月21日晚8点贝壳技术总监侯圣文《数据安全之数据库安全黄金法则》简介 Kafka是基于发布订阅的消息系统。最初起源于LinkedIn，于2011年成为开源Apache项目，然后于2012年成为Apache顶级项目。Kafka用Scala和Java编写，因其分布式可

传统的消息系统按顺序保存数据，如果多个消费者从队列消费，则服务器按存储的顺序发送消息，但是，尽管服务器按顺序发送，多个并行请求将会是异步的，因此消息可能乱序到达。这意味着只要消息存在并行消费的情况，顺序就无法保证。消息系统常常通过仅设1个消费者来解决这个问题，但是这意味着没用到并行处理。

Kafka有比传统的消息系统更强的顺序保证。通过并行Topic的Parition，Kafka提供了顺序保证和负载均衡。每个Partition仅由同一个消费者组中的一个消费者消费到。并确保消费者是该Partition的唯一消费者，并按顺序消费数据。每个topic有多个分区，则需要对多个消费者做负载均衡，但请注意，相同的消费者组中不能有比分区更多的消费者，否则多出的消费者一直处于空等待，不会收到消息。

Kafka作为存储系统

所有发布消息到消息队列和消费分离的系统，实际上都充当了一个临时存储系统。Kafka还是一个非常高性能的存储系统。写入到Kafka的数据将写到磁盘并复制到集群中保证容错性。并允许生产者等待消息应答，直到消息完全写入。Kafka的存储结构保证无论服务器上有50KB或50TB数据，执行效率是相似的，因此可达到水平扩展的目标。还可以认为Kafka是一种专用于高性能，低延迟，提交日志存储，复制，和传播特殊用途的分布式文件系统。

Kafka流处理

Kafka的更高目标是实时流处理。在Kafka中，流处理持续获取输入topic的数据，进行处理加工，然后写入输出topic。例如，一个零售APP，接收销售和出货的输入流，统计数量或调整价格后输出。

简单的需求可以直接使用Producer和Consumer API进行处理。对于复杂的转换，Kafka提供了更强大的Streams API，可构建聚合计算或连接流到一起的复杂应用程序。

综上所述，Kafka 的设计可以帮助我们解决很多架构上的问题。但是想要用好 Kafka 的高性能、低耦合、高可靠性等特性，我们需要非常了解 Kafka，以及我们自身的业务需求，综合考虑应用场景。

【本文是51CTO专栏机构“AiChinaTech”的原创文章，微信公众号( id: tech-AI)”】

戳这里，看该作者更多好文

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/4

首页