与 Kimi 关于 Flink、StarRocks 实现大表 JOIN 的探讨

下文中,plough 是我,kimi 就是大语言模型 kimi:https://kimi.moonshot.cn/ plough: 在包含多张亿级数据大表的数据仓库中,如果需要多表JOIN生成一张 dws 大宽表,应该怎么做?首先,这样的设计合理吗?其次,如果合理,应该用什么技术方案实现? 举个例子,假设某个电商平台,有3亿用户。有一张用户订单表,又有一张用户收藏表。我需要在上层获得一张宽表,既能

记一次 Flink Job 调优经验

问题描述 素材计算的 Job,涉及对 SR 的高频复杂查询,核心算子开了 60 个并行度,window 大小为 15s,吞吐量不够大(跟不上上游的生产速度),容易出现 SQL 异常导致 Job 重启。 优化之后,仅用 24 个并行度,跑出了之前 60 个并行度 3 倍以上的吞吐量,而且系统不再重启。 优化思路 主要是对一张大表(素材表)用 IN 语句查询,需要限制单次查询的 ID 个数。 对于复杂

服务器单机部署 Flink 1.18.1

这个很简单,本来不打算记录的。但是今天需要在一台新机器上部署,忘记了关键步骤,还得去查官方文档。太麻烦。就在这里记一下步骤吧。 1 下载安装包 wget https://dlcdn.apache.org/flink/flink-1.18.1/flink-1.18.1-bin-scala_2.12.tgz --no-check-certificate 2 解压缩 tar -xvzf flink-1.

Flink 集成 KafkaSource

一个全新的 Flink Stream Api 项目,要从本地的 Kafka 中读取数据。本文给出 demo 代码。 0 前提说明 截止 2024 年 4 月 25 日,Flink 1.19 版本没有提供 Kafka connector。所以,最多只能用 Flink 1.18 版本。 1 添加依赖 在 pom.xml 中添加如下依赖: <dependency> <groupId&g

初次部署 Flink,WebUI 外网无法访问的问题

在服务器上部署了 Flink,启动集群。尝试访问 WebUI,浏览器却提示“xxx 拒绝了我们的连接请求。” 原因是,Flink 的 WebUI 默认不对外开放访问,需要修改配置文件。 步骤如下: vi conf/flink-conf.yaml 打开配置文件 找到 rest.bind-address,把值改为 0.0.0.0 重启 Flink 集群 再次尝试访问,就可以进去了。

创建并运行一个 Flink Stream Api 的 HelloWorld 项目

工作需要,重拾 Flink,从最简单的 demo 开始上手。 1 创建项目 假设需要从零开发一个 Stream Api 的项目,怎样搭建项目基础框架呢? 使用 maven,执行以下命令: mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-walkthrough-dat

Flink tutor 学习小结

这两天玩了几个 Flink 的 tutor,感觉蛮好的,篇幅短小,把大数据流式/batch处理的用法都讲到了。我简单总结一下,大家感兴趣可以去深入看看: 1. First Steps https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/try-flink/local_installation/ 本地启动 Flink 集群,