Forum

Please or Register to create posts and topics.

Modern Data Warehouse (MDW), Data Fabric, Data Lakehouse, và Data Mesh

 
1. Modern Data Warehouse (MDW):
  • Mô tả: Kết hợp data lake (lưu trữ dữ liệu thô, không cấu trúc) và data warehouse (lưu trữ dữ liệu có cấu trúc). Đây là kiến trúc lai, cung cấp tính linh hoạt, khả năng mở rộng của data lake và khả năng quản trị, hiệu suất của data warehouse truyền thống.
  • Phù hợp với: Các tổ chức xử lý dữ liệu nhỏ (<1TB), tập trung vào báo cáo và phân tích kinh doanh truyền thống (BI).
  • Ưu điểm: Dễ triển khai, mô hình quen thuộc, ít đòi hỏi học hỏi.
  • Hạn chế: Khả năng mở rộng cho AI và dữ liệu thời gian thực hạn chế.
  • Các giai đoạn xử lý dữ liệu: Ingest (thu thập), Store (lưu trữ), Transform (chuyển đổi), Model (mô hình hóa), Visualize (trực quan hóa).

”Moderm

 
2. Data Fabric:
  • Mô tả: Là phiên bản nâng cấp của MDW, tích hợp thêm công nghệ như xử lý thời gian thực, danh mục siêu dữ liệu (metadata catalogs), ảo hóa dữ liệu, API, và công cụ quản trị. Data Fabric cho phép truy cập và quản lý dữ liệu phân tán trên nhiều nền tảng, tăng cường tính tự động hóa và bảo mật.
  • Phù hợp với: Các công ty cần tích hợp nhiều nguồn dữ liệu đa dạng (kích thước, tốc độ, định dạng), hiện đại hóa hệ thống cũ mà không cần viết lại toàn bộ.
  • Ưu điểm: Hỗ trợ truy cập thời gian thực, truy vấn liên hợp (federated queries), và các ứng dụng AI.
  • Hạn chế: Phức tạp để triển khai, đòi hỏi quản trị dữ liệu chặt chẽ.
  • Đặc điểm nổi bật: Tích hợp lớp ngữ nghĩa (semantic layer) để hỗ trợ AI và truy cập thống nhất.

”Data

 
3. Data Lakehouse
  • Mô tả: Kết hợp data lake và data warehouse trong một nền tảng duy nhất, sử dụng lớp lưu trữ giao dịch như **Delta Lake**, **Apache Iceberg**, hoặc **Apache Hudi**. Điều này cho phép lưu trữ dữ liệu thô và truy vấn có cấu trúc mà không cần data warehouse riêng.
  • Phù hợp với: Các tổ chức muốn nền tảng phân tích thống nhất, hỗ trợ cả AI và BI, với chi phí thấp.
  • Ưu điểm: Linh hoạt, hỗ trợ AI tốt, chi phí thấp hơn so với MDW hoặc Data Fabric.
  • Hạn chế: Cần quản trị bổ sung khi nhu cầu hiệu suất hoặc quản trị vượt quá khả năng của Lakehouse.
  • Ví dụ: Microsoft Fabric sử dụng OneLake (dựa trên Delta Lake) để lưu trữ dữ liệu từ lakehouse và warehouse.

”Data

 
4. Data Mesh:
  • Mô tả: Khác với ba kiến trúc trên (đều tập trung), Data Mesh phân quyền sở hữu dữ liệu cho từng domain (ví dụ: sản xuất, bán hàng, nhà cung cấp). Mỗi domain tự quản lý dữ liệu hoạt động và phân tích của mình, coi dữ liệu như một sản phẩm. Data Mesh là khung khái niệm, không phải công nghệ, và mỗi domain có thể chọn MDW, Data Fabric, hoặc Lakehouse để triển khai.
  • Phù hợp với: Các doanh nghiệp lớn gặp vấn đề về khả năng mở rộng và nút thắt từ IT tập trung.
  • Ưu điểm: Tăng khả năng mở rộng AI giữa các domain, giảm phụ thuộc vào IT trung tâm, thúc đẩy tính tự chủ.
  • Hạn chế: Triển khai lâu, đòi hỏi thay đổi văn hóa tổ chức và mức độ trưởng thành cao.
  • Cơ chế hoạt động: Mỗi domain có đội ngũ “mini-IT” để xử lý, làm sạch, và cung cấp dữ liệu phân tích.

”Data

 

So sánh các kiến trúc (bảng từ tài liệu):

Đặc điểm
Relational DW
Data Lake
Modern DW
Data Fabric
Data Lakehouse
Data Mesh
Năm ra mắt
1984
2010
2011
2016
2020
2019
Tập trung/Phân tán
Tập trung
Tập trung
Tập trung
Tập trung
Tập trung
Phân tán
Loại lưu trữ
Quan hệ
Đối tượng
Quan hệ + Đối tượng
Đối tượng
Đối tượng
Tùy domain
Loại schema
Schema-on-write
Schema-on-read
Cả hai
Cả hai
Schema-on-read
Tùy domain
Bảo mật dữ liệu
Cao
Thấp-Trung
Trung-Cao
Cao
Trung
Tùy domain
Độ trễ dữ liệu
Thấp
Cao
Thấp-Cao
Thấp-Cao
Trung-Cao
Tùy domain
Thời gian tạo giá trị
Trung
Thấp
Thấp
Thấp
Thấp
Cao
Chi phí tổng
Cao
Thấp
Trung
Trung-Cao
Thấp-Trung
Cao
Hỗ trợ use case
Thấp
Thấp-Trung
Trung
Trung-Cao
Cao
Cao
Độ khó phát triển
Thấp
Trung
Trung
Trung-Cao
Trung-Cao
Cao
Độ trưởng thành công nghệ
Cao
Trung
Trung-Cao
Trung-Cao
Trung-Cao
Thấp
Kỹ năng cần thiết
Thấp
Thấp-Trung
Trung
Trung-Cao
Trung-Cao
Cao
 
Hướng dẫn sử dụng:
  • MDW: Dành cho dữ liệu nhỏ, báo cáo truyền thống, tổ chức quen với data warehouse quan hệ.
  • Data Fabric: Phù hợp với môi trường phức tạp, cần tích hợp thời gian thực và hiện đại hóa hệ thống cũ.
  • Data Lakehouse: Lý tưởng cho phân tích thống nhất, hỗ trợ AI và BI với chi phí thấp.
  • Data Mesh: Dành cho doanh nghiệp lớn, trưởng thành, cần phân quyền dữ liệu để mở rộng quy mô.
 
Lưu ý
  • Các tổ chức thường kết hợp nhiều kiến trúc tùy thuộc vào nhu cầu, hệ thống cũ, khả năng đội ngũ, và mục tiêu AI.