Tổng quan Lakehouse và Data Warehouse

·

·

,
Tổng quan về Lakehouse và Data Warehouse

Một tính năng nổi bật của Microsoft Fabric là khả năng thiết lập lakehouse, một kiến trúc dữ liệu kết hợp giữa khả năng lưu trữ rộng lớn của data lake và khả năng truy vấn có cấu trúc của data warehouse. Sự tích hợp này cho phép lưu trữ và phân tích cả dữ liệu có cấu trúc lẫn không có cấu trúc trong một nền tảng thống nhất.

Data Lake so với Data Warehouse
  • Data Lake: Được thiết kế để lưu trữ lượng lớn dữ liệu thô ở nhiều định dạng khác nhau như CSV, JSON mà không áp đặt một lược đồ (schema) cụ thể.
  • Data Warehouse: Được xây dựng để lưu trữ dữ liệu có cấu trúc, hỗ trợ truy cập nhanh chóng cho mục đích phân tích.

Data Warehouse:

  • Mô hình lược đồ quan hệ (relational schema).
  • Truy vấn dựa trên SQL.
  • Nền tảng đã được chứng minh cho báo cáo và phân tích.
Định dạng Delta Lake và Parquet

Trong lakehouse của Microsoft Fabric, dữ liệu được lưu trữ bằng bảng Delta Lake, sử dụng định dạng tệp Parquet. Delta Lake cải tiến Parquet bằng cách bổ sung các tính năng như giao dịch ACID, đảm bảo độ tin cậy của dữ liệu và hỗ trợ các chức năng như du hành thời gian (time travel) và tiến hóa lược đồ (schema evolution).

Lợi ích của Lakehouse
  1. Khả năng mở rộng: Lakehouse tự động điều chỉnh để xử lý khối lượng dữ liệu lớn, phân bổ tài nguyên theo nhu cầu mà không cần can thiệp thủ công.
  2. Linh hoạt: Hỗ trợ nhiều định dạng dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, phù hợp với các loại dữ liệu đa dạng.
  3. Tiết kiệm chi phí: Tách biệt lưu trữ và tài nguyên tính toán giúp giảm chi phí cơ sở hạ tầng, cho phép mở rộng lưu trữ độc lập với sức mạnh tính toán.
  4. Dễ quản lý: Lakehouse đơn giản hóa việc quản lý dữ liệu bằng cách tích hợp lưu trữ và phân tích dữ liệu vào một nền tảng duy nhất, giảm độ phức tạp khi duy trì các hệ thống riêng biệt.
  5. Khả năng phân tích nâng cao: Hỗ trợ nhiều công cụ tính toán, cho phép thực hiện phân tích phức tạp, học máy và xử lý dữ liệu thời gian thực.
Tương tác với Lakehouse

Microsoft Fabric cung cấp nhiều công cụ để tương tác với lakehouse:

  • Lakehouse Explorer: Giao diện người dùng để tải, khám phá và quản lý dữ liệu trong lakehouse.
  • Notebooks: Các kỹ sư dữ liệu có thể sử dụng Spark notebooks để đọc, chuyển đổi và ghi dữ liệu trực tiếp vào bảng hoặc thư mục lakehouse.
  • Pipelines và Dataflows Gen 2: Các công cụ như Azure Data FactoryPower Query hỗ trợ nhập dữ liệu từ nhiều nguồn vào lakehouse.
  • Shortcuts: Tính năng này cho phép kết nối với các nguồn dữ liệu hiện có mà không cần sao chép hoặc di chuyển dữ liệu, đảm bảo tích hợp liền mạch.
Tiêu thụ dữ liệu

Dữ liệu được lưu trữ trong lakehouse có thể được truy cập và phân tích bằng:

  • Power BI: Dùng cho báo cáo và trực quan hóa, tận dụng chế độ Direct Lake để truy cập dữ liệu thời gian thực.
  • SQL Analytics Endpoint: Mỗi lakehouse bao gồm một điểm cuối SQL tích hợp, cho phép kết nối từ các công cụ dựa trên SQL để truy vấn dữ liệu.
So sánh với Data Warehouse truyền thống

Cả lakehouse và data warehouse đều hỗ trợ dữ liệu có cấu trúc và cung cấp các tính năng bảo mật mạnh mẽ, nhưng lakehouse mang lại các lợi ích bổ sung:

  • Hỗ trợ dữ liệu không có cấu trúc: Lakehouse có thể xử lý dữ liệu không có cấu trúc và bán cấu trúc, trong khi data warehouse truyền thống thường chỉ giới hạn ở dữ liệu có cấu trúc.
  • Chi phí và khả năng mở rộng: Lakehouse cung cấp giải pháp lưu trữ có thể mở rộng, thường tiết kiệm chi phí hơn nhờ kiến trúc tách biệt lưu trữ và tài nguyên tính toán.
Kết luận

Kiến trúc lakehouse của Microsoft Fabric tích hợp khả năng lưu trữ rộng lớn của data lake với sức mạnh truy vấn có cấu trúc của data warehouse, mang đến một giải pháp có thể mở rộng, linh hoạttiết kiệm chi phí cho việc quản lý và phân tích dữ liệu toàn diện.