How Can We Help?

Search for answers or browse our knowledge base.

Table of Contents
< All Topics
Print

Data Warehouse hiện đại cho doanh nghiệp


Các Data Warehouse hiện đại cho doanh nghiệp vừa và nhỏ

Azure Data Lake | Azure SQL Database | Microsoft Fabric

Giới thiệu

Bài viết này mô tả một số cách mà các doanh nghiệp vừa và nhỏ (SMBs) có thể hiện đại hóa các kho dữ liệu cũ và khám phá các công cụ và khả năng big data mà không vượt quá ngân sách và kỹ năng hiện có. Những giải pháp Data Warehouse toàn diện này tích hợp liền mạch với Azure Machine Learning, các dịch vụ Azure AI, Microsoft Power Platform, Microsoft Dynamics 365 và các công nghệ khác của Microsoft. Các giải pháp này cung cấp một điểm khởi đầu dễ dàng cho nền tảng dữ liệu phần mềm dưới dạng dịch vụ (SaaS) được quản lý hoàn toàn trên Microsoft Fabric, có thể mở rộng khi nhu cầu của bạn tăng lên.

Các SMB sử dụng SQL Server tại chỗ cho các giải pháp Data Warehouse dưới 500 GB có thể hưởng lợi từ mô hình này. Họ sử dụng nhiều công cụ khác nhau để nhập dữ liệu vào giải pháp Data Warehouse, bao gồm SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), các stored procedure SQL thông thường, các công cụ extract, transform, load (ETL) và extract, load, transform (ELT) bên ngoài, các công việc SQL Server Agent và sao chép snapshot SQL. Các hoạt động đồng bộ hóa dữ liệu thường dựa trên snapshot, được thực hiện một lần mỗi ngày và không có yêu cầu báo cáo thời gian thực.

Kiến trúc đơn giản hóa

Giải pháp Data Warehouse cũ

  • Microsoft Azure:
  • Data pipeline
  • Lưu trữ và xử lý
  • Xử lý và trình bày
  • Microsoft Fabric:
  • Xử lý và trình bày

Tải xuống tệp Visio của kiến trúc này: Download a Visio file of this architecture.

Cơ hội hiện đại hóa khái niệm bao gồm việc chuyển đổi giải pháp Data Warehouse cũ sang sự kết hợp của Azure SQL Database, Azure SQL Managed Instance và Microsoft Fabric. Chiến lược này đảm bảo khả năng tương thích rộng với các công cụ SQL Server truyền thống và các công cụ client SQL như SQL Server Management Studio (SSMS). Nó cũng cung cấp các tùy chọn nâng cấp và chuyển đổi (lift-and-shift) cho các quy trình hiện có và yêu cầu đào tạo tối thiểu cho đội ngũ hỗ trợ. Giải pháp này là bước đầu tiên hướng tới hiện đại hóa toàn diện, cho phép tổ chức áp dụng hoàn toàn phương pháp lakehouse khi Data Warehouse mở rộng và kỹ năng của đội ngũ phát triển.

Kiến trúc

Tải xuống tệp Visio của kiến trúc này: Download a Visio file of this architecture

Các Data Warehouse cũ của SMB có thể chứa nhiều loại dữ liệu:

  • Dữ liệu không có cấu trúc: như tài liệu và đồ họa.
  • Dữ liệu bán cấu trúc: như tệp log, CSV, JSON và XML.
  • Dữ liệu quan hệ có cấu trúc: bao gồm các cơ sở dữ liệu sử dụng stored procedure cho các hoạt động ETL và ELT.

Luồng dữ liệu

Luồng dữ liệu sau đây tương ứng với sơ đồ trên, thể hiện việc nhập dữ liệu theo loại dữ liệu bạn chọn:

  1. Data pipeline của Microsoft Fabric hoặc Azure Data Factory điều phối việc nhập dữ liệu giao dịch vào giải pháp Data Warehouse:
  • Các pipeline điều phối luồng của các cơ sở dữ liệu cũ được di chuyển hoặc tái cấu trúc một phần và các gói SSIS vào SQL Database và SQL Managed Instance. Phương pháp nâng cấp và chuyển đổi này có thể được triển khai nhanh chóng, đảm bảo quá trình chuyển đổi liền mạch từ giải pháp SQL tại chỗ sang môi trường Fabric SaaS trong tương lai. Bạn có thể hiện đại hóa cơ sở dữ liệu theo từng bước sau khi nâng cấp và chuyển đổi.
  • Các pipeline có thể chuyển dữ liệu không có cấu trúc, bán cấu trúc và có cấu trúc vào Azure Data Lake Storage để lưu trữ và phân tích tập trung cùng với các nguồn khác. Sử dụng phương pháp này khi việc kết hợp dữ liệu mang lại nhiều lợi ích kinh doanh hơn so với việc tái nền tảng dữ liệu.
  1. Sử dụng nguồn dữ liệu Microsoft Dynamics 365 để xây dựng các bảng điều khiển kinh doanh thông minh (BI) tập trung trên các tập dữ liệu được tăng cường bằng các công cụ phân tích dễ dàng của Fabric. Bạn có thể đưa dữ liệu đã được kết hợp và xử lý trở lại Dynamics và sử dụng nó để phân tích thêm trong Fabric.
  2. Dữ liệu thời gian thực từ các nguồn phát trực tuyến có thể vào hệ thống qua Azure Event Hubs hoặc các giải pháp phát trực tuyến khác. Đối với khách hàng có yêu cầu bảng điều khiển thời gian thực, Fabric Real-Time Analytics có thể phân tích dữ liệu này ngay lập tức.
  3. Dữ liệu có thể được nhập vào Fabric OneLake tập trung để phân tích, lưu trữ và báo cáo thêm bằng cách sử dụng các shortcut của Data Lake Storage. Quá trình này cho phép phân tích tại chỗ và hỗ trợ tiêu thụ dữ liệu ở các bước sau.
  4. Các công cụ phân tích serverless, như SQL Analytics endpointFabric Spark, có sẵn theo yêu cầu trong Fabric và không yêu cầu tài nguyên được cung cấp trước. Các công cụ phân tích serverless lý tưởng cho:
  • Các hoạt động ETL và ELT trên dữ liệu OneLake.
  • Phục vụ lớp vàng (gold layer) của kiến trúc medallion cho các báo cáo Power BI thông qua tính năng DirectLake.
  • Khám phá khoa học dữ liệu ngẫu hứng ở định dạng T-SQL hoặc Python.
  • Nguyên mẫu ban đầu cho các thực thể Data Warehouse.

Fabric tích hợp chặt chẽ với các đối tượng tiêu thụ tiềm năng của tập dữ liệu đa nguồn của bạn, bao gồm báo cáo giao diện Power BI, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions và các ứng dụng web Azure App Service.

Thành phần

  • Microsoft Fabric: là dịch vụ phân tích kết hợp kỹ thuật dữ liệu, Data Warehouse, khoa học dữ liệu, dữ liệu thời gian thực và khả năng BI. Trong giải pháp này, khả năng kỹ thuật dữ liệu của Fabric cung cấp nền tảng hợp tác cho các kỹ sư dữ liệu, nhà khoa học dữ liệu, nhà phân tích dữ liệu và chuyên gia BI. Thành phần chính này được cung cấp bởi các công cụ tính toán serverless và mang lại giá trị kinh doanh bằng cách tạo ra các hiểu biết được phân phối cho khách hàng.
  • SQL Database và SQL Managed Instance: là các dịch vụ cơ sở dữ liệu quan hệ dựa trên đám mây. Chúng sử dụng SSMS để phát triển và duy trì các artifact cũ như stored procedure. Trong giải pháp này, các dịch vụ này lưu trữ Data Warehouse doanh nghiệp và thực hiện các hoạt động ETL và ELT bằng stored procedure hoặc các gói bên ngoài. SQL Database và SQL Managed Instance là môi trường platform as a service (PaaS) mà bạn có thể sử dụng để đáp ứng các yêu cầu về tính sẵn sàng cao và khôi phục thảm họa. Hãy đảm bảo chọn SKU đáp ứng yêu cầu của bạn. Để biết thêm thông tin, xem: High availability for SQL DatabaseHigh availability for SQL Managed Instance.
  • SSMS: là môi trường tích hợp để quản lý cơ sở hạ tầng SQL mà bạn có thể sử dụng để phát triển và duy trì các artifact cũ, như stored procedure.
  • Event Hubs: là nền tảng phát trực tuyến dữ liệu thời gian thực và dịch vụ nhập sự kiện. Event Hubs tích hợp liền mạch với các dịch vụ dữ liệu Azure và có thể nhập dữ liệu từ bất kỳ đâu.

Các lựa chọn thay thế

  • Bạn có thể sử dụng Azure IoT Hub để thay thế hoặc bổ sung cho Event Hubs. Hãy chọn giải pháp dựa trên nguồn dữ liệu phát trực tuyến của bạn và liệu bạn có cần sao chép hay giao tiếp hai chiều với các thiết bị báo cáo hay không.
  • Bạn có thể sử dụng data pipeline của Fabric thay vì data pipeline của Data Factory để tích hợp dữ liệu. Quyết định của bạn sẽ phụ thuộc vào một số yếu tố. Để biết thêm thông tin, xem: Getting from Azure Data Factory to Data Factory in Fabric.
  • Bạn có thể sử dụng Fabric Warehouse thay vì SQL Database hoặc SQL Managed Instance để lưu trữ dữ liệu doanh nghiệp. Bài viết này ưu tiên thời gian đưa ra thị trường cho khách hàng muốn hiện đại hóa Data Warehouse của họ. Để biết thêm thông tin về các tùy chọn lưu trữ dữ liệu cho Fabric, xem: Fabric decision guide.

Chi tiết kịch bản

Khi các SMB hiện đại hóa Data Warehouse tại chỗ của họ cho đám mây, họ có thể áp dụng các công cụ big data để mở rộng trong tương lai hoặc sử dụng các giải pháp dựa trên SQL truyền thống để tiết kiệm chi phí, dễ bảo trì và chuyển đổi mượt mà. Một cách tiếp cận kết hợp cung cấp lợi ích của cả hai thế giới và cho phép di chuyển dễ dàng các kho dữ liệu hiện có trong khi sử dụng các công cụ hiện đại và khả năng AI. Các SMB có thể giữ các nguồn dữ liệu dựa trên SQL chạy trên đám mây và hiện đại hóa chúng khi cần thiết.

Bài viết này mô tả một số chiến lược để các SMB hiện đại hóa các kho dữ liệu cũ và khám phá các công cụ và khả năng big data mà không vượt quá ngân sách và kỹ năng hiện có. Các giải pháp Data Warehouse toàn diện của Azure tích hợp liền mạch với các dịch vụ Azure và Microsoft, bao gồm các dịch vụ AI, Microsoft Dynamics 365 và Microsoft Power Platform.

Các trường hợp sử dụng tiềm năng

  • Di chuyển một Data Warehouse quan hệ tại chỗ truyền thống dưới 1 TB và sử dụng các gói SSIS để điều phối stored procedure.
  • Kết hợp dữ liệu Dataverse của Dynamics hoặc Microsoft Power Platform hiện có với các nguồn Data Lake theo lô và thời gian thực.
  • Sử dụng các kỹ thuật sáng tạo để tương tác với dữ liệu Azure Data Lake Storage Gen2 tập trung. Các kỹ thuật này bao gồm phân tích serverless, khai thác tri thức, kết hợp dữ liệu giữa các lĩnh vực và khám phá dữ liệu bởi người dùng cuối, bao gồm Fabric Copilot.
  • Thiết lập các công ty thương mại điện tử để áp dụng một Data Warehouse nhằm tối ưu hóa hoạt động của họ.

Giải pháp này không được khuyến nghị cho:

  • Triển khai mới hoàn toàn (greenfield) của Data Warehouse.
  • Di chuyển các Data Warehouse tại chỗ lớn hơn 1 TB hoặc được dự đoán sẽ đạt kích thước đó trong vòng một năm.

Các cân nhắc

Những cân nhắc này triển khai các trụ cột của Khung Kiến trúc Tốt của Azure (Azure Well-Architected Framework), là một tập hợp các nguyên tắc hướng dẫn mà bạn có thể sử dụng để cải thiện chất lượng của một khối lượng công việc. Để biết thêm thông tin, xem: Well-Architected Framework.

Tối ưu hóa chi phí

Tối ưu hóa chi phí tập trung vào các cách giảm chi phí không cần thiết và cải thiện hiệu quả hoạt động. Để biết thêm thông tin, xem: Design review checklist for Cost Optimization.

  • Máy tính giá Azure cho phép bạn điều chỉnh các giá trị để hiểu cách các yêu cầu cụ thể của bạn ảnh hưởng đến chi phí. Bạn có thể xem mẫu giá cho kịch bản Data Warehouse của SMB trong máy tính giá Azure: Azure pricing calculator.
  • Giá của SQL Database phụ thuộc vào các bậc tính toán và dịch vụ bạn chọn, số lượng vCore và đơn vị giao dịch cơ sở dữ liệu. Ví dụ mô tả một cơ sở dữ liệu đơn với tính toán được cung cấp và tám vCore, giả định bạn cần chạy stored procedure trong SQL Database.
  • Giá của Data Lake Storage Gen2 phụ thuộc vào lượng dữ liệu bạn lưu trữ và tần suất sử dụng dữ liệu. Mẫu giá bao gồm 1 TB lưu trữ dữ liệu và các giả định giao dịch khác. 1 TB đề cập đến kích thước của Data Lake, không phải kích thước của cơ sở dữ liệu cũ ban đầu.
  • Giá của Microsoft Fabric phụ thuộc vào giá dung lượng Fabric F hoặc giá Premium Per Person. Các khả năng serverless sử dụng CPU và bộ nhớ từ dung lượng chuyên dụng mà bạn đã mua.
  • Giá của Event Hubs phụ thuộc vào bậc bạn chọn, số lượng đơn vị thông lượng được cung cấp và lưu lượng nhập nhận được. Ví dụ giả định một đơn vị thông lượng ở bậc Standard xử lý hơn một triệu sự kiện mỗi tháng.

Người đóng góp

Bài viết này được duy trì bởi Microsoft. Nó được viết bởi các tác giả sau đây.

Tác giả chính:

  • Galina Polyakova | Kiến trúc sư Giải pháp Đám mây Cấp cao

Để xem các hồ sơ LinkedIn không công khai, hãy đăng nhập vào LinkedIn: To see non-public LinkedIn profiles, sign in to LinkedIn.

Các bước tiếp theo

Tài nguyên liên quan


Was this article helpful?
0 out of 5 stars
5 Stars 0%
4 Stars 0%
3 Stars 0%
2 Stars 0%
1 Stars 0%
5
Please Share Your Feedback
How Can We Improve This Article?