How Can We Help?

Search for answers or browse our knowledge base.

Table of Contents
< All Topics
Print

Phân tích dữ liệu doanh nghiệp với Azure Synapse


Phân tích toàn diện với Azure Synapse

Giới thiệu

Giải pháp được mô tả trong bài viết này kết hợp một loạt các dịch vụ Azure để thu thập (ingest), lưu trữ (store), xử lý (process), làm giàu (enrich), và phục vụ (serve) dữ liệu cùng với các thông tin chi tiết từ nhiều nguồn khác nhau (cấu trúc, bán cấu trúc, không cấu trúc, và luồng dữ liệu (streaming)).

Kiến trúc (Architecture)

Dưới đây là kiến trúc toàn diện phân tích dữ liệu của doanh nghiệp với Azure Synapse. Một Analytics end-to-end with Azure Synapse

Phân tích dữ liệu
Phân tích dữ liệu toàn diện cho doanh nghiệp

Tải xuống tệp Visio của kiến trúc này tại Visio file.

Lưu ý:

  • Các dịch vụ được đề cập trong kiến trúc này chỉ là một phần của một gia đình dịch vụ Azure lớn hơn nhiều. Kết quả tương tự có thể đạt được bằng cách sử dụng các dịch vụ hoặc tính năng khác không được đề cập trong thiết kế này.
  • Yêu cầu kinh doanh cụ thể cho trường hợp phân tích (analytics use case) của bạn có thể đòi hỏi sử dụng các dịch vụ hoặc tính năng khác không được xem xét trong thiết kế này.

Luồng dữ liệu (Dataflow)

Các trường hợp sử dụng phân tích được đề cập trong kiến trúc này được minh họa bởi các nguồn dữ liệu khác nhau ở phía bên trái của sơ đồ. Dữ liệu chảy qua giải pháp từ dưới lên như sau:

Lưu ý: Trong các phần sau, Data Lake được sử dụng làm nơi lưu trữ dữ liệu qua các giai đoạn khác nhau của vòng đời dữ liệu (data lifecycle). Data Lake được tổ chức theo các tầng (layers) và vùng chứa (containers) như sau:

  • Tầng Raw là khu vực tiếp nhận (landing area) cho dữ liệu từ các hệ thống nguồn. Như tên gọi, dữ liệu trong tầng này ở dạng thô (raw), chưa được lọc hoặc làm sạch.
  • Ở giai đoạn tiếp theo của vòng đời, dữ liệu chuyển sang tầng Enriched, nơi dữ liệu được làm sạch (cleaned), lọc (filtered), và có thể được chuyển đổi (transformed).
  • Dữ liệu sau đó chuyển sang tầng Curated, nơi lưu trữ dữ liệu sẵn sàng cho người dùng (consumer-ready data).

Vui lòng tham khảo tài liệu về Data lake zones and containers để xem xét đầy đủ về các tầng và vùng chứa của Data Lake cùng với cách sử dụng chúng.

Dịch vụ dữ liệu Azure, HTAP gốc đám mây với Azure Cosmos DB và Dataverse

Xử lý (Process)

  1. Azure Synapse Link cho Azure Cosmos DB và Azure Synapse Link cho Dataverse cho phép bạn chạy phân tích gần thời gian thực (near real-time analytics) trên dữ liệu vận hành (operational data) và dữ liệu ứng dụng kinh doanh (business application data), bằng cách sử dụng các công cụ phân tích có sẵn từ không gian làm việc Azure Synapse (Azure Synapse workspace): SQL Serverless và Spark Pools.
  2. Khi sử dụng Azure Synapse Link cho Azure Cosmos DB, hãy sử dụng truy vấn SQL Serverless hoặc sổ tay Spark Pool (Spark Pool notebook). Bạn có thể truy cập kho phân tích Azure Cosmos DB (Azure Cosmos DB analytical store) và sau đó kết hợp các tập dữ liệu từ dữ liệu vận hành gần thời gian thực với dữ liệu từ Data Lake hoặc Data Warehouse.
  3. Khi sử dụng Azure Synapse Link cho Dataverse, hãy sử dụng truy vấn SQL Serverless hoặc sổ tay Spark Pool. Bạn có thể truy cập các bảng Dataverse đã chọn và sau đó kết hợp các tập dữ liệu từ dữ liệu ứng dụng kinh doanh gần thời gian thực với dữ liệu từ Data Lake hoặc Data Warehouse.

Lưu trữ (Store)

  1. Các tập dữ liệu kết quả từ truy vấn SQL Serverless có thể được lưu trữ trong Data Lake. Nếu bạn sử dụng sổ tay Spark (Spark notebooks), các tập dữ liệu kết quả có thể được lưu trữ trong Data Lake hoặc Data Warehouse (SQL pool).

Phục vụ (Serve)

  1. Tải dữ liệu liên quan từ hồ SQL của Azure Synapse (Azure Synapse SQL pool) hoặc Data Lake vào các tập dữ liệu Power BI để trực quan hóa và khám phá dữ liệu (data visualization and exploration). Mô hình Power BI triển khai mô hình ngữ nghĩa (semantic model) để đơn giản hóa việc phân tích dữ liệu kinh doanh và các mối quan hệ. Các nhà phân tích kinh doanh sử dụng báo cáo và bảng điều khiển Power BI (Power BI reports and dashboards) để phân tích dữ liệu và rút ra thông tin chi tiết kinh doanh (business insights).
  2. Dữ liệu cũng có thể được chia sẻ an toàn với các đơn vị kinh doanh khác hoặc đối tác đáng tin cậy bên ngoài bằng cách sử dụng Azure Data Share. Người tiêu dùng dữ liệu (data consumers) có thể tự do chọn định dạng dữ liệu họ muốn sử dụng và công cụ tính toán (compute engine) phù hợp nhất để xử lý các tập dữ liệu được chia sẻ.
  3. Dữ liệu cấu trúc và không cấu trúc được lưu trữ trong không gian làm việc Synapse cũng có thể được sử dụng để xây dựng các giải pháp khai thác tri thức (knowledge mining solutions) và sử dụng AI để khám phá các thông tin chi tiết kinh doanh giá trị từ nhiều loại tài liệu và định dạng khác nhau, bao gồm tài liệu Office, PDF, hình ảnh, âm thanh, biểu mẫu, và trang web.

Cơ sở dữ liệu quan hệ (Relational databases)

Thu thập (Ingest)

  1. Sử dụng đường ống Azure Synapse (Azure Synapse pipelines) để kéo dữ liệu từ nhiều loại cơ sở dữ liệu khác nhau, cả nội bộ (on-premises) và trên đám mây (in the cloud). Đường ống có thể được kích hoạt dựa trên lịch trình được định nghĩa trước, phản hồi với một sự kiện (event), hoặc được gọi rõ ràng qua REST APIs.

Lưu trữ (Store)

  1. Trong tầng Raw của Data Lake, tổ chức Data Lake theo các thực tiễn tốt nhất về việc tạo các tầng nào, sử dụng cấu trúc thư mục nào trong mỗi tầng, và định dạng tệp nào cho mỗi kịch bản phân tích.
  2. Từ đường ống Azure Synapse, sử dụng hoạt động Sao chép dữ liệu (Copy data activity) để đưa dữ liệu được sao chép từ các cơ sở dữ liệu quan hệ vào tầng Raw của Data Lake Store Gen 2. Bạn có thể lưu dữ liệu ở định dạng văn bản phân cách (delimited text format) hoặc nén dưới dạng tệp Parquet.

Xử lý (Process)

  1. Sử dụng luồng dữ liệu (data flows), truy vấn SQL Serverless, hoặc sổ tay Spark (Spark notebooks) để xác thực (validate), chuyển đổi (transform), và di chuyển các tập dữ liệu từ tầng Raw, qua tầng Enriched, và vào tầng Curated trong Data Lake.
  • Trong quá trình chuyển đổi dữ liệu, bạn có thể gọi các mô hình huấn luyện máy (machine-training models) từ hồ SQL (SQL pools) bằng T-SQL chuẩn hoặc sổ tay Spark. Các mô hình máy học (ML models) này có thể được sử dụng để làm giàu tập dữ liệu (enrich datasets) và tạo ra thêm thông tin chi tiết kinh doanh. Các mô hình máy học này có thể được lấy từ dịch vụ Azure AI hoặc các mô hình ML tùy chỉnh từ Azure ML.

Phục vụ (Serve)

  1. Bạn có thể phục vụ tập dữ liệu cuối cùng trực tiếp từ tầng Curated của Data Lake hoặc sử dụng hoạt động Sao chép dữ liệu để đưa tập dữ liệu cuối cùng vào các bảng hồ SQL (SQL pool tables) bằng lệnh COPY để thu thập nhanh (fast ingestion).
  2. Tải dữ liệu liên quan từ hồ SQL của Azure Synapse hoặc Data Lake vào các tập dữ liệu Power BI để trực quan hóa dữ liệu. Mô hình Power BI triển khai mô hình ngữ nghĩa để đơn giản hóa việc phân tích dữ liệu kinh doanh và các mối quan hệ. Các nhà phân tích kinh doanh sử dụng báo cáo và bảng điều khiển Power BI để phân tích dữ liệu và rút ra thông tin chi tiết kinh doanh.
  3. Dữ liệu cũng có thể được chia sẻ an toàn với các đơn vị kinh doanh khác hoặc đối tác đáng tin cậy bên ngoài bằng Azure Data Share. Người tiêu dùng dữ liệu có thể tự do chọn định dạng dữ liệu họ muốn sử dụng và công cụ tính toán phù hợp nhất để xử lý các tập dữ liệu được chia sẻ.
  4. Dữ liệu cấu trúc và không cấu trúc được lưu trữ trong không gian làm việc Synapse cũng có thể được sử dụng để xây dựng các giải pháp khai thác tri thức và sử dụng AI để khám phá các thông tin chi tiết kinh doanh giá trị từ nhiều loại tài liệu và định dạng, bao gồm tài liệu Office, PDF, hình ảnh, âm thanh, biểu mẫu, và trang web.

Nguồn dữ liệu bán cấu trúc (Semi-structured data sources)

Thu thập (Ingest)

  1. Sử dụng đường ống Azure Synapse để kéo dữ liệu từ nhiều nguồn dữ liệu bán cấu trúc khác nhau, cả nội bộ và trên đám mây. Ví dụ:
  • Thu thập dữ liệu từ các nguồn dựa trên tệp chứa tệp CSV hoặc JSON.
  • Kết nối với cơ sở dữ liệu No-SQL như Azure Cosmos DB hoặc MongoDB.
  • Gọi REST APIs được cung cấp bởi các ứng dụng SaaS làm nguồn dữ liệu cho đường ống.

Lưu trữ (Store)

  1. Trong tầng Raw của Data Lake, tổ chức Data Lake theo các thực tiễn tốt nhất về việc tạo các tầng nào, sử dụng cấu trúc thư mục nào trong mỗi tầng, và định dạng tệp nào cho mỗi kịch bản phân tích.
  2. Từ đường ống Azure Synapse, sử dụng hoạt động Sao chép dữ liệu để đưa dữ liệu được sao chép từ các nguồn dữ liệu bán cấu trúc vào tầng Raw của Data Lake Store Gen 2. Lưu dữ liệu để bảo toàn định dạng gốc, như được lấy từ các nguồn dữ liệu.

Xử lý (Process)

  1. Đối với đường ống xử lý hàng loạt/nhỏ (batch/micro-batch pipelines), sử dụng luồng dữ liệu, truy vấn SQL Serverless, hoặc sổ tay Spark để xác thực, chuyển đổi, và di chuyển các tập dữ liệu vào tầng Curated trong Data Lake. Truy vấn SQL Serverless hiển thị các tệp CSV, Parquet, hoặc JSON bên dưới dưới dạng bảng bên ngoài (external tables), để chúng có thể được truy vấn bằng T-SQL.
  • Trong quá trình chuyển đổi dữ liệu, bạn có thể gọi các mô hình máy học từ hồ SQL bằng T-SQL chuẩn hoặc sổ tay Spark. Các mô hình ML này có thể được sử dụng để làm giàu tập dữ liệu và tạo ra thêm thông tin chi tiết kinh doanh. Các mô hình máy học này có thể được lấy từ dịch vụ Azure AI hoặc các mô hình ML tùy chỉnh từ Azure ML.
  1. Đối với các kịch bản phân tích dữ liệu đo từ xa (telemetry) và chuỗi thời gian (time-series analytics) gần thời gian thực, sử dụng hồ Data Explorer (Data Explorer pools) để dễ dàng thu thập, tổng hợp, và liên kết dữ liệu nhật ký (logs) và sự kiện IoT từ nhiều nguồn dữ liệu. Với hồ Data Explorer, bạn có thể sử dụng truy vấn Kusto (Kusto queries – KQL) để thực hiện phân tích chuỗi thời gian, phân cụm địa không gian (geospatial clustering), và làm giàu bằng máy học (machine learning enrichment).

Phục vụ (Serve)

  1. Bạn có thể phục vụ tập dữ liệu cuối cùng trực tiếp từ tầng Curated của Data Lake hoặc sử dụng hoạt động Sao chép dữ liệu để đưa tập dữ liệu cuối cùng vào các bảng hồ SQL bằng lệnh COPY để thu thập nhanh.
  2. Tải dữ liệu liên quan từ hồ SQL của Azure Synapse, hồ Data Explorer, hoặc Data Lake vào các tập dữ liệu Power BI để trực quan hóa dữ liệu. Mô hình Power BI triển khai mô hình ngữ nghĩa để đơn giản hóa việc phân tích dữ liệu kinh doanh và các mối quan hệ. Các nhà phân tích kinh doanh sử dụng báo cáo và bảng điều khiển Power BI để phân tích dữ liệu và rút ra thông tin chi tiết kinh doanh.
  3. Dữ liệu cũng có thể được chia sẻ an toàn với các đơn vị kinh doanh khác hoặc đối tác đáng tin cậy bên ngoài bằng Azure Data Share. Người tiêu dùng dữ liệu có thể tự do chọn định dạng dữ liệu họ muốn sử dụng và công cụ tính toán phù hợp nhất để xử lý các tập dữ liệu được chia sẻ.
  4. Dữ liệu cấu trúc và không cấu trúc được lưu trữ trong không gian làm việc Synapse cũng có thể được sử dụng để xây dựng các giải pháp khai thác tri thức và sử dụng AI để khám phá các thông tin chi tiết kinh doanh giá trị từ nhiều loại tài liệu và định dạng, bao gồm tài liệu Office, PDF, hình ảnh, âm thanh, biểu mẫu, và trang web.

Nguồn dữ liệu không cấu trúc (Non-structured data sources)

Thu thập (Ingest)

  1. Sử dụng đường ống Azure Synapse để kéo dữ liệu từ nhiều nguồn dữ liệu không cấu trúc khác nhau, cả nội bộ và trên đám mây. Ví dụ:
  • Thu thập video, hình ảnh, âm thanh, hoặc văn bản tự do (free text) từ các nguồn dựa trên tệp chứa các tệp nguồn.
  • Gọi REST APIs được cung cấp bởi các ứng dụng SaaS làm nguồn dữ liệu cho đường ống.

Lưu trữ (Store)

  1. Trong tầng Raw của Data Lake, tổ chức Data Lake theo các thực tiễn tốt nhất về việc tạo các tầng nào, sử dụng cấu trúc thư mục nào trong mỗi tầng, và định dạng tệp nào cho mỗi kịch bản phân tích.
  2. Từ đường ống Azure Synapse, sử dụng hoạt động Sao chép dữ liệu để đưa dữ liệu được sao chép từ các nguồn dữ liệu không cấu trúc vào tầng Raw của Data Lake Store Gen 2. Lưu dữ liệu bằng cách bảo toàn định dạng gốc, như được lấy từ các nguồn dữ liệu.

Xử lý (Process)

  1. Sử dụng sổ tay Spark để xác thực, chuyển đổi, làm giàu, và di chuyển các tập dữ liệu từ tầng Raw, qua tầng Enriched, và vào tầng Curated trong Data Lake.
  • Trong quá trình chuyển đổi dữ liệu, bạn có thể gọi các mô hình máy học từ hồ SQL bằng T-SQL chuẩn hoặc sổ tay Spark. Các mô hình ML này có thể được sử dụng để làm giàu tập dữ liệu và tạo ra thêm thông tin chi tiết kinh doanh. Các mô hình máy học này có thể được lấy từ dịch vụ Azure AI hoặc các mô hình ML tùy chỉnh từ Azure ML.

Phục vụ (Serve)

  1. Bạn có thể phục vụ tập dữ liệu cuối cùng trực tiếp từ tầng Curated của Data Lake hoặc sử dụng hoạt động Sao chép dữ liệu để đưa tập dữ liệu cuối cùng vào các bảng Data Warehouse bằng lệnh COPY để thu thập nhanh.
  2. Tải dữ liệu liên quan từ hồ SQL của Azure Synapse hoặc Data Lake vào các tập dữ liệu Power BI để trực quan hóa dữ liệu. Mô hình Power BI triển khai mô hình ngữ nghĩa để đơn giản hóa việc phân tích dữ liệu kinh doanh và các mối quan hệ.
  3. Các nhà phân tích kinh doanh sử dụng báo cáo và bảng điều khiển Power BI để phân tích dữ liệu và rút ra thông tin chi tiết kinh doanh.
  4. Dữ liệu cũng có thể được chia sẻ an toàn với các đơn vị kinh doanh khác hoặc đối tác đáng tin cậy bên ngoài bằng Azure Data Share. Người tiêu dùng dữ liệu có thể tự do chọn định dạng dữ liệu họ muốn sử dụng và công cụ tính toán phù hợp nhất để xử lý các tập dữ liệu được chia sẻ.
  5. Dữ liệu cấu trúc và không cấu trúc được lưu trữ trong không gian làm việc Synapse cũng có thể được sử dụng để xây dựng các giải pháp khai thác tri thức và sử dụng AI để khám phá các thông tin chi tiết kinh doanh giá trị từ nhiều loại tài liệu và định dạng, bao gồm tài liệu Office, PDF, hình ảnh, âm thanh, biểu mẫu, và trang web.

Luồng dữ liệu (Streaming)

Thu thập (Ingest)

  1. Sử dụng Azure Event Hubs hoặc Azure IoT Hub để thu thập luồng dữ liệu (data streams) được tạo bởi các ứng dụng khách (client applications) hoặc thiết bị IoT. Event Hubs hoặc IoT Hub sẽ thu thập và lưu trữ luồng dữ liệu, bảo toàn thứ tự các sự kiện nhận được. Người tiêu dùng sau đó có thể kết nối với các điểm cuối của Event Hubs hoặc IoT Hub và truy xuất các thông điệp để xử lý.

Lưu trữ (Store)

  1. Trong tầng Raw của Data Lake, tổ chức Data Lake theo các thực tiễn tốt nhất về việc tạo các tầng nào, sử dụng cấu trúc thư mục nào trong mỗi tầng, và định dạng tệp nào cho mỗi kịch bản phân tích.
  2. Cấu hình tính năng Event Hubs Capture hoặc Điểm cuối lưu trữ IoT Hub (IoT Hub Storage Endpoints) để lưu một bản sao của các sự kiện vào tầng Raw của Data Lake Store Gen 2. Tính năng này triển khai “Đường lạnh” (Cold Path) của mô hình kiến trúc Lambda (Lambda architecture pattern) và cho phép bạn thực hiện phân tích lịch sử (historical analysis) và xu hướng (trend analysis) trên dữ liệu luồng được lưu trong Data Lake bằng truy vấn SQL Serverless hoặc sổ tay Spark theo mô hình cho các nguồn dữ liệu bán cấu trúc đã mô tả ở trên.

Xử lý (Process)

  1. Để có thông tin chi tiết thời gian thực (real-time insights), sử dụng công việc Stream Analytics (Stream Analytics job) để triển khai “Đường nóng” (Hot Path) của mô hình kiến trúc Lambda và rút ra thông tin chi tiết từ dữ liệu luồng trong quá trình truyền tải. Xác định ít nhất một đầu vào (input) cho luồng dữ liệu từ Event Hubs hoặc IoT Hub, một truy vấn để xử lý luồng dữ liệu đầu vào, và một đầu ra Power BI để gửi kết quả truy vấn.
  • Trong quá trình xử lý dữ liệu với Stream Analytics, bạn có thể gọi các mô hình máy học để làm giàu tập dữ liệu luồng (enrich stream datasets) và đưa ra quyết định kinh doanh dựa trên các dự đoán được tạo ra. Các mô hình máy học này có thể được lấy từ dịch vụ Azure AI hoặc từ các mô hình ML tùy chỉnh trong Azure Machine Learning.
  1. Sử dụng các đầu ra công việc Stream Analytics khác để gửi các sự kiện đã xử lý đến hồ SQL của Azure Synapse (Azure Synapse SQL pools) hoặc hồ Data Explorer (Data Explorer pools) cho các trường hợp sử dụng phân tích khác.
  2. Đối với các kịch bản phân tích dữ liệu đo từ xa và chuỗi thời gian gần thời gian thực, sử dụng hồ Data Explorer để dễ dàng thu thập sự kiện IoT trực tiếp từ Event Hubs hoặc IoT Hub. Với hồ Data Explorer, bạn có thể sử dụng truy vấn Kusto (KQL) để thực hiện phân tích chuỗi thời gian, phân cụm địa không gian, và làm giàu bằng máy học.

Phục vụ (Serve)

  1. Các nhà phân tích kinh doanh sử dụng các tập dữ liệu thời gian thực và khả năng bảng điều khiển của Power BI (Power BI real-time datasets and dashboard capabilities) để trực quan hóa các thông tin chi tiết thay đổi nhanh được tạo ra bởi truy vấn Stream Analytics.
  2. Dữ liệu cũng có thể được chia sẻ an toàn với các đơn vị kinh doanh khác hoặc đối tác đáng tin cậy bên ngoài bằng Azure Data Share. Người tiêu dùng dữ liệu có thể tự do chọn định dạng dữ liệu họ muốn sử dụng và công cụ tính toán phù hợp nhất để xử lý các tập dữ liệu được chia sẻ.
  3. Dữ liệu cấu trúc và không cấu trúc được lưu trữ trong không gian làm việc Synapse cũng có thể được sử dụng để xây dựng các giải pháp khai thác tri thức và sử dụng AI để khám phá các thông tin chi tiết kinh doanh giá trị từ nhiều loại tài liệu và định dạng, bao gồm tài liệu Office, PDF, hình ảnh, âm thanh, biểu mẫu, và trang web.

Thành phần (Components)

Các dịch vụ Azure sau đã được sử dụng trong kiến trúc này:

  • Azure Synapse Analytics
  • Data Lake Gen2
  • Azure Cosmos DB
  • Dịch vụ Azure AI (Azure AI services)
  • Azure Machine Learning
  • Azure Event Hubs
  • Azure IoT Hub
  • Azure Stream Analytics
  • Microsoft Purview
  • Azure Data Share
  • Microsoft Power BI
  • Microsoft Entra ID
  • Microsoft Cost Management
  • Azure Key Vault
  • Azure Monitor
  • Microsoft Defender for Cloud
  • Azure DevOps
  • Azure Policy
  • GitHub

Các lựa chọn thay thế (Alternatives)

  • Trong kiến trúc trên, đường ống Azure Synapse (Azure Synapse pipelines) chịu trách nhiệm điều phối đường ống dữ liệu (data pipeline orchestration). Đường ống Azure Data Factory (Azure Data Factory pipelines) cũng cung cấp các khả năng tương tự như được mô tả trong bài viết này.
  • Azure Databricks cũng có thể được sử dụng làm công cụ tính toán (compute engine) để xử lý dữ liệu cấu trúc và không cấu trúc trực tiếp trên Data Lake.
  • Trong kiến trúc trên, Azure Stream Analytics là dịch vụ chịu trách nhiệm xử lý dữ liệu luồng (streaming data). Hồ Spark của Azure Synapse (Azure Synapse Spark pools) và Azure Databricks cũng có thể được sử dụng để thực hiện vai trò tương tự thông qua việc thực thi sổ tay (notebooks).
  • Cụm Kafka của Azure HDInsight (Azure HDInsight Kafka clusters) cũng có thể được sử dụng để thu thập dữ liệu luồng và cung cấp mức hiệu suất và khả năng mở rộng cần thiết cho các khối lượng công việc luồng lớn (large streaming workloads).
  • Bạn cũng có thể sử dụng Azure Functions để gọi dịch vụ Azure AI hoặc các mô hình ML tùy chỉnh của Azure Machine Learning từ đường ống Azure Synapse.
  • Các công nghệ trong kiến trúc này được chọn vì mỗi công nghệ cung cấp các chức năng cần thiết để xử lý các thách thức dữ liệu phổ biến nhất trong một tổ chức. Các dịch vụ này đáp ứng yêu cầu về khả năng mở rộng (scalability) và tính sẵn sàng (availability), đồng thời giúp kiểm soát chi phí. Các dịch vụ được đề cập trong kiến trúc này chỉ là một phần của một gia đình dịch vụ Azure lớn hơn nhiều. Kết quả tương tự có thể đạt được bằng cách sử dụng các dịch vụ hoặc tính năng khác không được đề cập trong thiết kế này.
  • Yêu cầu kinh doanh cụ thể cho các trường hợp sử dụng phân tích của bạn cũng có thể yêu cầu sử dụng các dịch vụ hoặc tính năng khác không được xem xét trong thiết kế này.
  • Để so sánh các lựa chọn thay thế khác, xem:
  • Choosing a data pipeline orchestration technology in Azure
  • Choosing a batch processing technology in Azure
  • Choosing an analytical data store in Azure
  • Choosing a data analytics technology in Azure
  • Choosing a stream processing technology in Azure

Chi tiết kịch bản (Scenario details)

Kịch bản ví dụ này thể hiện cách sử dụng Azure Synapse Analytics cùng với gia đình dịch vụ dữ liệu Azure mở rộng để xây dựng một nền tảng dữ liệu hiện đại (modern data platform) có khả năng xử lý các thách thức dữ liệu phổ biến nhất trong một tổ chức.

Các trường hợp sử dụng tiềm năng (Potential use cases)

Cách tiếp cận này cũng có thể được sử dụng để:

  • Thiết lập kiến trúc sản phẩm dữ liệu (data product architecture), bao gồm Data Warehouse cho dữ liệu cấu trúc và Data Lake cho dữ liệu bán cấu trúc và không cấu trúc. Bạn có thể chọn triển khai một sản phẩm dữ liệu duy nhất cho môi trường tập trung (centralized environments) hoặc nhiều sản phẩm dữ liệu cho môi trường phân tán (distributed environments) như Data Mesh. Xem thêm thông tin về Data Management and Data Landing Zones.
  • Tích hợp các nguồn dữ liệu quan hệ (relational data sources) với các tập dữ liệu không cấu trúc khác, bằng cách sử dụng các công nghệ xử lý Big Data.
  • Sử dụng mô hình ngữ nghĩa (semantic modeling) và các công cụ trực quan hóa mạnh mẽ để phân tích dữ liệu đơn giản hơn.
  • Chia sẻ tập dữ liệu (datasets) trong tổ chức hoặc với các đối tác đáng tin cậy bên ngoài.
  • Triển khai các giải pháp khai thác tri thức để trích xuất thông tin kinh doanh giá trị ẩn trong hình ảnh, PDF, tài liệu, v.v.

Khuyến nghị (Recommendations)

Khám phá và quản trị (Discover and govern)

Quản trị dữ liệu (data governance) là một thách thức phổ biến trong các môi trường doanh nghiệp lớn. Một mặt, các nhà phân tích kinh doanh cần có khả năng khám phá và hiểu các tài sản dữ liệu (data assets) giúp họ giải quyết các vấn đề kinh doanh. Mặt khác, Giám đốc Dữ liệu (Chief Data Officers) muốn có thông tin chi tiết về quyền riêng tư (privacy) và bảo mật (security) của dữ liệu kinh doanh.

Microsoft Purview

  1. Sử dụng Microsoft Purview để khám phá dữ liệu (data discovery) và thu nhận thông tin chi tiết về tài sản dữ liệu, phân loại dữ liệu (data classification), và độ nhạy của dữ liệu (data sensitivity), bao quát toàn bộ cảnh quan dữ liệu của tổ chức.
  2. Microsoft Purview có thể giúp duy trì bảng thuật ngữ kinh doanh (business glossary) với các thuật ngữ kinh doanh cụ thể cần thiết để người dùng hiểu ngữ nghĩa (semantics) của tập dữ liệu và cách chúng được sử dụng trong tổ chức.
  3. Bạn có thể đăng ký tất cả các nguồn dữ liệu và tổ chức chúng thành các Bộ sưu tập (Collections), cũng đóng vai trò là ranh giới bảo mật (security boundary) cho siêu dữ liệu (metadata).
  4. Thiết lập quét định kỳ (regular scans) để tự động lập danh mục và cập nhật siêu dữ liệu liên quan về tài sản dữ liệu trong tổ chức. Microsoft Purview cũng có thể tự động thêm thông tin nguồn gốc dữ liệu (data lineage) dựa trên thông tin từ Azure Data Factory hoặc đường ống Azure Synapse.
  5. Phân loại dữ liệu và nhãn độ nhạy của dữ liệu (data sensitivity labels) có thể được thêm tự động vào tài sản dữ liệu dựa trên các quy tắc được cấu hình trước hoặc tùy chỉnh được áp dụng trong các lần quét định kỳ.
  6. Các chuyên gia quản trị dữ liệu có thể sử dụng các báo cáo và thông tin chi tiết được tạo bởi Microsoft Purview để kiểm soát toàn bộ cảnh quan dữ liệu và bảo vệ tổ chức khỏi các vấn đề bảo mật và quyền riêng tư.

Dịch vụ nền tảng (Platform services)

Để cải thiện chất lượng của các giải pháp Azure, hãy tuân theo các khuyến nghị và hướng dẫn được xác định trong năm trụ cột xuất sắc của Khung Kiến trúc Tốt của Azure (Azure Well-Architected Framework): Tối ưu hóa Chi phí (Cost Optimization), Xuất sắc Vận hành (Operational Excellence), Hiệu quả Hiệu suất (Performance Efficiency), Độ tin cậy (Reliability), và Bảo mật (Security).

Theo các khuyến nghị này, các dịch vụ dưới đây nên được xem xét trong thiết kế:

  1. Microsoft Entra ID: Dịch vụ danh tính (identity services), đăng nhập một lần (single sign-on), và xác thực đa yếu tố (multi-factor authentication) trên các khối lượng công việc Azure.
  2. Microsoft Cost Management: Quản trị tài chính (financial governance) trên các khối lượng công việc Azure.
  3. Azure Key Vault: Quản lý thông tin xác thực (credentials) và chứng chỉ (certificates) an toàn. Ví dụ, đường ống Azure Synapse, hồ Spark của Azure Synapse, và Azure ML có thể truy xuất thông tin xác thực và chứng chỉ từ Azure Key Vault để truy cập an toàn vào các kho dữ liệu.
  4. Azure Monitor: Thu thập, phân tích, và hành động dựa trên thông tin đo từ xa (telemetry information) của tài nguyên Azure để chủ động xác định vấn đề và tối đa hóa hiệu suất và độ tin cậy.
  5. Microsoft Defender for Cloud: Tăng cường và giám sát tình trạng bảo mật (security posture) của các khối lượng công việc Azure.
  6. Azure DevOps & GitHub: Triển khai các thực tiễn DevOps để thực thi tự động hóa (automation) và tuân thủ (compliance) trong các đường ống phát triển và triển khai khối lượng công việc (workload development and deployment pipelines) cho Azure Synapse và Azure ML.
  7. Azure Policy: Triển khai các tiêu chuẩn tổ chức (organizational standards) và quản trị (governance) để đảm bảo tính nhất quán tài nguyên (resource consistency), tuân thủ quy định (regulatory compliance), bảo mật, chi phí, và quản lý.

Các cân nhắc (Considerations)

Các cân nhắc này triển khai các trụ cột của Khung Kiến trúc Tốt của Azure, là tập hợp các nguyên tắc hướng dẫn để cải thiện chất lượng của khối lượng công việc. Để biết thêm thông tin, xem Well-Architected Framework.

Tối ưu hóa chi phí (Cost Optimization)

Tối ưu hóa chi phí tập trung vào các cách giảm chi phí không cần thiết và cải thiện hiệu quả vận hành. Để biết thêm thông tin, xem Design review checklist for Cost Optimization.

Nói chung, sử dụng máy tính giá Azure (Azure pricing calculator) để ước tính chi phí tại Azure pricing calculator. Bậc giá riêng lẻ lý tưởng và tổng chi phí tổng thể của mỗi dịch vụ trong kiến trúc phụ thuộc vào lượng dữ liệu cần xử lý và lưu trữ cũng như mức hiệu suất mong đợi. Sử dụng hướng dẫn dưới đây để tìm hiểu thêm về cách định giá từng dịch vụ:

  • Kiến trúc không máy chủ của Azure Synapse Analytics (Azure Synapse Analytics serverless architecture) cho phép bạn mở rộng mức tính toán (compute) và lưu trữ (storage) độc lập. Tài nguyên tính toán được tính phí dựa trên mức sử dụng, và bạn có thể mở rộng hoặc tạm dừng các tài nguyên này theo nhu cầu. Tài nguyên lưu trữ được tính phí theo mỗi terabyte, vì vậy chi phí của bạn sẽ tăng khi bạn thu thập nhiều dữ liệu hơn.
  • Data Lake Gen 2 được tính phí dựa trên lượng dữ liệu được lưu trữ và số lượng giao dịch (transactions) để đọc và ghi dữ liệu.
  • Azure Event Hubs và Azure IoT Hub được tính phí dựa trên lượng tài nguyên tính toán cần thiết để xử lý luồng thông điệp (message streams).
  • Chi phí Azure Machine Learning đến từ lượng tài nguyên tính toán được sử dụng để huấn luyện (train) và triển khai (deploy) các mô hình máy học.
  • Dịch vụ AI (AI services) được tính phí dựa trên số lượng cuộc gọi (calls) bạn thực hiện đến các API dịch vụ.
  • Microsoft Purview được định giá dựa trên số lượng tài sản dữ liệu trong danh mục (catalog) và lượng sức mạnh tính toán cần thiết để quét chúng.
  • Azure Stream Analytics được tính phí dựa trên lượng sức mạnh tính toán cần thiết để xử lý các truy vấn luồng (stream queries).
  • Power BI có các tùy chọn sản phẩm khác nhau cho các yêu cầu khác nhau. Power BI Embedded cung cấp tùy chọn dựa trên Azure để nhúng chức năng Power BI vào bên trong ứng dụng của bạn. Một phiên bản Power BI Embedded được bao gồm trong mẫu định giá ở trên.
  • Azure Cosmos DB được định giá dựa trên lượng lưu trữ và tài nguyên tính toán cần thiết cho cơ sở dữ liệu của bạn.

Kiến trúc tương tự cũng có thể được triển khai cho môi trường tiền sản xuất (pre-production environments) nơi bạn có thể phát triển và kiểm thử khối lượng công việc. Hãy xem xét các yêu cầu cụ thể cho khối lượng công việc và khả năng của mỗi dịch vụ để có một môi trường tiền sản xuất hiệu quả về chi phí.

Triển khai kịch bản này (Deploy this scenario)

Bài viết này có một kho lưu trữ đi kèm (companion repository) có sẵn trên GitHub, thể hiện cách tự động hóa việc triển khai các dịch vụ được đề cập trong kiến trúc này. Làm theo hướng dẫn triển khai Azure analytics end-to-end with Azure Synapse deployment guide để triển khai kiến trúc này vào gói đăng ký của bạn. Hướng dẫn triển khai đó có các hướng dẫn chi tiết và nhiều tùy chọn triển khai tại GitHub.

Người đóng góp (Contributors)

Bài viết này được cập nhật và duy trì bởi Microsoft. Nó được viết bởi các tác giả sau.

Tác giả chính:

  • Fabio Braga | Kiến trúc sư Kỹ thuật MTC Chính

Để xem các hồ sơ LinkedIn không công khai, hãy đăng nhập vào LinkedIn.

Các bước tiếp theo (Next steps)

  • Xem lại các hướng dẫn được xác định trong kịch bản quản lý và phân tích dữ liệu Azure (Azure data management and analytics scenario) cho môi trường phân tích có thể mở rộng trên Azure tại Azure data management and analytics scenario.
  • Khám phá các lộ trình học tập cho Kỹ sư Dữ liệu (Data Engineer Learning Paths) tại Microsoft Learn để biết thêm nội dung đào tạo và phòng thí nghiệm về các dịch vụ liên quan đến kiến trúc tham chiếu này tại Data Engineer Learning Paths.
  • Xem lại tài liệu và triển khai kiến trúc tham chiếu bằng cách sử dụng hướng dẫn triển khai có sẵn trên GitHub tại deployment guidance.

Was this article helpful?
0 out of 5 stars
5 Stars 0%
4 Stars 0%
3 Stars 0%
2 Stars 0%
1 Stars 0%
5
Please Share Your Feedback
How Can We Improve This Article?