与 Kimi 关于 Flink、StarRocks 实现大表 JOIN 的探讨 下文中,plough 是我,kimi 就是大语言模型 kimi:https://kimi.moonshot.cn/ plough: 在包含多张亿级数据大表的数据仓库中,如果需要多表JOIN生成一张 dws 大宽表,应该怎么做?首先,这样的设计合理吗?其次,如果合理,应该用什么技术方案实现? 举个例子,假设某个电商平台,有3亿用户。有一张用户订单表,又有一张用户收藏表。我需要在上层获得一张宽表,既能 数据笔记 桩白墨 2024-10-06 213 热度 0评论
记一次 Flink Job 调优经验 问题描述 素材计算的 Job,涉及对 SR 的高频复杂查询,核心算子开了 60 个并行度,window 大小为 15s,吞吐量不够大(跟不上上游的生产速度),容易出现 SQL 异常导致 Job 重启。 优化之后,仅用 24 个并行度,跑出了之前 60 个并行度 3 倍以上的吞吐量,而且系统不再重启。 优化思路 主要是对一张大表(素材表)用 IN 语句查询,需要限制单次查询的 ID 个数。 对于复杂 Flink 桩白墨 2024-09-15 154 热度 0评论
服务器单机部署 Flink 1.18.1 这个很简单,本来不打算记录的。但是今天需要在一台新机器上部署,忘记了关键步骤,还得去查官方文档。太麻烦。就在这里记一下步骤吧。 1 下载安装包 wget https://dlcdn.apache.org/flink/flink-1.18.1/flink-1.18.1-bin-scala_2.12.tgz --no-check-certificate 2 解压缩 tar -xvzf flink-1. Flink 桩白墨 2024-05-07 886 热度 0评论
Flink 集成 KafkaSource 一个全新的 Flink Stream Api 项目,要从本地的 Kafka 中读取数据。本文给出 demo 代码。 0 前提说明 截止 2024 年 4 月 25 日,Flink 1.19 版本没有提供 Kafka connector。所以,最多只能用 Flink 1.18 版本。 1 添加依赖 在 pom.xml 中添加如下依赖: <dependency> <groupId&g Flink 桩白墨 2024-04-25 857 热度 0评论
本地部署 Kafka 在本地部署一个用于测试的 Kafka,步骤如下。 (以2.3.0版本为例) 官方文档:https://kafka.apache.org/23/documentation.html#quickstart 部署启动 下载安装包,wget https://archive.apache.org/dist/kafka/2.3.0/kafka_2.12-2.3.0.tgz 找一个目录,解压。tar -xvzf Kafka 桩白墨 2024-04-25 854 热度 0评论
初次部署 Flink,WebUI 外网无法访问的问题 在服务器上部署了 Flink,启动集群。尝试访问 WebUI,浏览器却提示“xxx 拒绝了我们的连接请求。” 原因是,Flink 的 WebUI 默认不对外开放访问,需要修改配置文件。 步骤如下: vi conf/flink-conf.yaml 打开配置文件 找到 rest.bind-address,把值改为 0.0.0.0 重启 Flink 集群 再次尝试访问,就可以进去了。 Flink 桩白墨 2024-04-24 875 热度 0评论
创建并运行一个 Flink Stream Api 的 HelloWorld 项目 工作需要,重拾 Flink,从最简单的 demo 开始上手。 1 创建项目 假设需要从零开发一个 Stream Api 的项目,怎样搭建项目基础框架呢? 使用 maven,执行以下命令: mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-walkthrough-dat Flink 桩白墨 2024-04-24 748 热度 0评论
Flink tutor 学习小结 这两天玩了几个 Flink 的 tutor,感觉蛮好的,篇幅短小,把大数据流式/batch处理的用法都讲到了。我简单总结一下,大家感兴趣可以去深入看看: 1. First Steps https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/try-flink/local_installation/ 本地启动 Flink 集群, Flink 桩白墨 2021-12-17 596 热度 0评论