Flink

您當前的位置：首頁 > 標簽>Flink

微博基於 Flink 的機器學習實踐
樣本服務介紹一下樣本生成服務，上圖為該服務的整體架構圖，包含樣本資料的處理和計算等，除了一些生成的離線和實時資料外，還需要一些已經生成好的特徵的引用，透過普通計算、多流 Join、深度學習等處理方式生成樣本，最後儲存到樣本庫中供模型訓練來調
2020-08-14標簽：離線樣本 Flink 模型學習
閱讀更多
Flink在實時在實時計算平臺和實時數倉中的企業級應用小結
sinks = k1a1
2021-11-09標簽：實時 Flink 資料 Kafka 離線
閱讀更多
使用 Flink 前需要知道的 10 個『陷阱』
jmxremote -Dcom
2021-03-11標簽： Flink 我們資料狀態分割槽
閱讀更多
Flink如何保證端到端的Exactly-Once一致性
那麼資料重發的例子中，入下圖所示，如果使用事務寫，那隻把時間戳3之前的輸出提交到外部系統，時間戳3以後的資料（例如時間戳5和8生成的資料）暫時儲存下來，等待下次Checkpoint時一起寫入到外部系統
2020-02-23標簽：資料 Checkpoint Flink once 故障
閱讀更多
Flink 在風控場景實時特徵落地實戰
Flink 實時計算架構圖計算層資料來源清洗：不同資料來源抽象 Flink Connector，標準輸出供下游使用資料拆分：1拆N，一條實時訊息可能包含多種訊息，此時需要資料裂變動態配置：允許在不停機 JOB 情況下，動態更新或新增清洗邏
2022-04-28標簽：特徵實時 Flink 清洗 SQL
閱讀更多
Flink的業務場景到底是什麼？
Caused by: java.util.concurrent.CompletionException: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka.tcp:
2021-05-17標簽： Flink Java org apache
閱讀更多
【乾貨篇】bilibili：基於 Flink 的機器學習工作流平臺在 b 站的應用
三、機器學習工作流平臺構建痛點機器學習的整個鏈路裡面有樣本生成、特徵生成、訓練、預測、效果評估，每個部分都要配置開發很多工，一個模型的上線最終需要橫跨多個任務，鏈路非常長
2021-06-03標簽：實時鏈路 Flink 特徵離線
閱讀更多
11張圖，拿下Flink端到端嚴格一次Exactly-Once
本例中的 Data Source 和視窗操作無外部狀態，因此在該階段，這兩個 Opeartor 無需執行任何邏輯，但是 Data Sink 是有外部狀態的，此時我們必須提交外部事務，當 Sink 任務收到確認通知，就會正式提交之前的事務，K
2021-08-14標簽： Flink 提交 source Checkpoint sink
閱讀更多
技術選型：為什麼批處理我們卻選擇了Flink
放棄 Spark 時我們的痛點在於 “部署在雲平臺上的 Spark 服務的管理介面很多功能無法使用”，而 Flink 的管理平臺完全沒有這個問題
2020-10-28標簽： Spark Flink 我們日誌平臺
閱讀更多
學習建議，大資料元件那麼多，可以重點學習這幾個。
定義資料集上的一個星形或雪花形模型在定義的資料表上構建cube使用標準 SQL 透過 ODBC、JDBC 或 RESTFUL API 進行查詢，僅需亞秒級響應時間即可獲得查詢結果docker / Kubernetes Kubernetes
2021-05-25標簽： Hadoop 資料倉庫 Spark 資料 Flink
閱讀更多
汽車之家：基於 Flink + Iceberg 的湖倉一體架構實踐
我們會把這些業務庫的資料接入到 Kafka 裡面，同時它還支援在平臺上配置分發任務，相當於把進 Kafka 的資料分發到不同的儲存引擎裡，在這個場景下是分發到 Iceberg 裡
2021-06-23標簽： Iceberg Flink 入湖實時資料
閱讀更多
為什麼我們選擇基於Flink搭建實時個性化營銷平臺？
為什麼選擇 Flink我們需要不斷的處理使用者事件（透過 SDK 或其他方式接入訊息佇列）並做一些標籤實時計算和營銷活動，因此流式計算引擎是非常適合的
2019-05-07標簽： Flink 實時離線計算使用者
閱讀更多
踩坑記| flink state 序列化 java enum 竟然岔劈了
createSerializer（env
2022-02-02標簽： long 列舉 Flink enum DimNameEnum
閱讀更多
如何成為apache開源社群的貢獻者
首先切換到主分支git checkout mastergit pull apache master之後，我們切換到我們的分支：# 切換到自己的分支git checkout flink-orc-input# 新增剛才改動的程式碼，如果不確定改
2020-07-13標簽： apache Flink 程式碼 git https
閱讀更多
Flink CDC 系列 - 實時抽取 Oracle 資料，排雷和調優實踐
info（“LogMiner is now using the maximum batch size {}
2021-12-20標簽： Oracle Flink debezium log cdc
閱讀更多
基於 Flink 的超大規模線上實時反欺詐系統的建設與實踐
針對這一問題，玖富集團打造基於 Flink 的超大規模線上實時反欺詐系統，快速處理海量資料並實現良好的使用者體驗
2020-03-07標簽： Flink 使用者欺詐資料實時
閱讀更多
Flink 1.13，面向流批一體的執行時與 DataStream API 最佳化
但是，在遇到有限流時，就會有一些問題：具有有限流的作業，task 結束之後，Flink 是不支援做 checkpoint 的，比如流批混合的作業，其中有一部分會結束，之後 Flink 就沒辦法再做 checkpoint，資料也就不會再提交了
2021-07-01標簽： Flink 作業 task 資料 Checkpoint
閱讀更多
Flink 的執行架構詳細剖析
3. Task 和 Operator chainFlink 的所有操作都稱之為 Operator，客戶端在提交任務的時候會對 Operator 進行最佳化操作，能進行合併的 Operator 會被合併為一個 Operator，合併後的 Op
2021-11-04標簽： operator Flink TaskManager Slot 任務
閱讀更多
Flink 必知必會經典課程四：Fault-tolerance in Flink
接收到訊息後，它首先對本地狀態進行快照，然後把 C32管道的標記成 close，與此同時開始向它所有的output channel傳送 marker訊息，最後它會把來自除了C32之外的所有input channel的訊息開始進行記錄
2021-03-19標簽：快照狀態訊息全域性 Flink
閱讀更多