例如，我們已經看到越來越多的“程式碼”進入資料倉庫

barikulislam015 · 發表於 2023-11-22 19:06:41

為了幫助資料工程師掌握應用程式和資料倉庫的情況，我們在 Integrate.io 中構建了一項名為“應用程式跟蹤”的功能。此功能將有關應用程式（儀表板、編排工具）的資訊與叢集效能資料關聯起來。應用程式跟蹤可以回答以下問題：哪個儀表板和使用者導致了查詢激增？儀表板的平均延遲是多少？在特定使用者執行的所有儀表板中？是什麼導致我的 Airflow 或 Pinball 任務延遲激增？哪個查詢變慢了，為什麼？為什麼我的 Airflow 或 Pinball 作業失敗？如何在 Integrate.io 中快速找到這些查詢？這就是識別那些拖慢叢集速度的應用程式對單個使用者來說是多麼容易立即免費啟動並識別正在減慢叢集速度的資料應用程式 Apache Spark 與 Amazon Redshift：資料工程開發人員和 BI 分析師/資料科學家之間的傳統界限開始消失，這催生了一種新職業：資料工程。

我將使用 Maxime Beauchemin 的資料工程定義： “相對於以前存在的角色，資料工程領域是商業智慧和資料倉庫的超集，它帶來了更多來自軟體工程的元素，並且集成了‘大資料’分散式系統的操作”。 Spark就是 電子郵件營銷列表 這樣一種“大資料”分散式系統，Redshift是資料倉庫部分。資料工程是將兩者結合在一起的學科。通過程式碼，您可以編寫、安排和監控輸入 Redshift 的資料管道，包括資料進入集群后的轉換。您很可能必須從 Spark 獲取資料。在資料倉庫中使用“程式碼”的趨勢意味著僅僅瞭解 SQL 已經不夠了——您需要知道如何編寫程式碼，因此“資料工程師”的興起。

結論：Apache Spark 與 Amazon Redshift 在 Spark 與 Redshift 比較中，我們討論了：使用案例： Spark 旨在提高應用程式開發速度和效能，而 Redshift 有助於更快、更高效地處理海量資料集。資料架構： Spark用於實時流處理，而Redshift最適合非實時的批量操作。資料工程： Spark 和 Redshift 由“資料工程”領域聯合起來，其中包括資料倉庫、軟體工程和分散式系統。對於您自己的大資料架構，您最終可能會同時使用 Spark 和 Redshift，每一個都可以滿足其最適合的特定用例。這就是我們建立 Integrate.io 來幫助您準確瞭解 Redshift 資料倉庫中發生的情況的原因 - 自動捕獲元資料、跟蹤依賴關係、監控一段時間內的趨勢等等。立即聯絡我們開始免費試用。

		自動登入	找回密碼
密碼			立即註冊