Flink 集成 KafkaSource

一个全新的 Flink Stream Api 项目,要从本地的 Kafka 中读取数据。本文给出 demo 代码。 0 前提说明 截止 2024 年 4 月 25 日,Flink 1.19 版本没有提供 Kafka connector。所以,最多只能用 Flink 1.18 版本。 1 添加依赖 在 pom.xml 中添加如下依赖: <dependency> <groupId&g

本地部署 Kafka

在本地部署一个用于测试的 Kafka,步骤如下。 (以2.3.0版本为例) 官方文档:https://kafka.apache.org/23/documentation.html#quickstart 部署启动 下载安装包,wget https://archive.apache.org/dist/kafka/2.3.0/kafka_2.12-2.3.0.tgz 找一个目录,解压。tar -xvzf

初次部署 Flink,WebUI 外网无法访问的问题

在服务器上部署了 Flink,启动集群。尝试访问 WebUI,浏览器却提示“xxx 拒绝了我们的连接请求。” 原因是,Flink 的 WebUI 默认不对外开放访问,需要修改配置文件。 步骤如下: vi conf/flink-conf.yaml 打开配置文件 找到 rest.bind-address,把值改为 0.0.0.0 重启 Flink 集群 再次尝试访问,就可以进去了。

创建并运行一个 Flink Stream Api 的 HelloWorld 项目

工作需要,重拾 Flink,从最简单的 demo 开始上手。 1 创建项目 假设需要从零开发一个 Stream Api 的项目,怎样搭建项目基础框架呢? 使用 maven,执行以下命令: mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-walkthrough-dat

Flink tutor 学习小结

这两天玩了几个 Flink 的 tutor,感觉蛮好的,篇幅短小,把大数据流式/batch处理的用法都讲到了。我简单总结一下,大家感兴趣可以去深入看看: 1. First Steps https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/try-flink/local_installation/ 本地启动 Flink 集群,

Kafka 性能测试

接触 kafka 有一段时间了,突然想看下 kafka 的性能到底怎么样,搜了相关资料,发现它自带了性能测试脚本。记录一下全过程。 1 本地搭建 kafka 环境 使用 docker-compose。https://github.com/plough/docker-compose/tree/master/kafka 启动之后,docker exec -it xxx bash 进入 kafka 的容

ClickHouse 数据表导出导入

导出: echo 'select * from hello' | curl ${clickhouse-ip}:8123?database=hello_db -d @- > hello_exported.sql 导入: cat hello_exported.sql |clickhouse-client --query="INSERT INTO hello_db.hello FORMAT Tab

ClickHouse 分布式表数据去重

场景 有一个部署在两台机器上的 ClickHouse 集群,里面有张分布式表。一部分数据存在机器 A 的 Shard 表上,一部分数据在机器 B 的 Shard 表上。访问任意一台机器,都可以看到全量的表数据。(更多细节略过) 这张分布式表里有一些重复数据,想要去重。怎么处理呢? 思路 创建一张临时的分布式表,从原表中查出去重后的数据,插入到临时表中。清空原表数据,然后再从临时表插回原表。 SQL

FineBI 产品白皮书阅读笔记(待补充)

入职第一天,老大让我先阅读 FineBI 的文档,于是花了近两天的时间仔细阅读了产品白皮书,并用 FreeMind 记了重点。这个过程中又学到了不少新东西,了解到不少新名词。在这里做一个简单的笔记(大部分名词解释的内容摘录于维基百科/百度百科)。 1、FineBI BI,business intelligence,商业智能。它是数据仓库、OLAP 和数据挖掘等技术的综合运用,可以将现有的数据进行有