Search for answers or browse our knowledge base.
Azure Synapse Analytics với mô hình triển khai
Azure Synapse Analytics cho các mô hình triển khai (landing zones)
Giới thiệu
Bài viết này cung cấp cách tiếp cận kiến trúc để chuẩn bị các gói đăng ký (subscriptions) mô hình triển khai Azure cho việc triển khai Azure Synapse Analytics một cách mở rộng và bảo mật nâng cao. Azure Synapse, một dịch vụ phân tích doanh nghiệp (enterprise analytics service), kết hợp Data Warehouse, xử lý dữ liệu lớn (big data processing), tích hợp dữ liệu (data integration), và quản lý dữ liệu.
Bài viết giả định rằng bạn đã triển khai nền tảng hạ tầng (platform foundation) cần thiết để xây dựng và vận hành hiệu quả một mô hình triển khai.
Apache®, Spark, và logo ngọn lửa là nhãn hiệu đã đăng ký hoặc nhãn hiệu của Apache Software Foundation tại Hoa Kỳ và/hoặc các quốc gia khác. Không có sự chứng thực nào từ Apache Software Foundation được ngụ ý bởi việc sử dụng các nhãn hiệu này.
Kiến trúc (Architecture)
Tải xuống tệp Visio của kiến trúc này tại Visio file.
Luồng dữ liệu (Dataflow)
- Thành phần cốt lõi của kiến trúc này là Azure Synapse, một dịch vụ thống nhất cung cấp nhiều chức năng, từ thu thập dữ liệu (data ingestion), xử lý dữ liệu (data processing) đến phục vụ và phân tích (serving and analytics). Azure Synapse trong Mạng ảo được quản lý (Managed Virtual Network) cung cấp khả năng cách ly mạng (network isolation) cho không gian làm việc (workspace). Bằng cách bật bảo vệ chống rò rỉ dữ liệu (data exfiltration protection), bạn có thể giới hạn kết nối ra ngoài (outbound connectivity) chỉ tới các đích được phê duyệt.
- Các tài nguyên Azure Synapse, môi trường tích hợp Azure (Azure integration runtime), và các hồ Spark (Spark pools) nằm trong Mạng ảo được quản lý có thể kết nối tới Azure Data Lake Storage, Azure Key Vault, và các kho dữ liệu Azure khác với bảo mật nâng cao bằng cách sử dụng các điểm cuối riêng được quản lý (Managed private endpoints). Các hồ SQL của Azure Synapse (Azure Synapse SQL pools) được lưu trữ bên ngoài Mạng ảo được quản lý có thể kết nối tới các dịch vụ Azure thông qua điểm cuối riêng (private endpoint) trong mạng ảo doanh nghiệp (enterprise virtual network).
- Quản trị viên có thể thực thi kết nối riêng (private connectivity) tới không gian làm việc Azure Synapse, Data Lake Storage, Key Vault, Log Analytics, và các kho dữ liệu khác thông qua các chính sách Azure (Azure policies) được áp dụng trên toàn bộ các mô hình triển khai dữ liệu ở cấp nhóm quản lý (management group). Họ cũng có thể bật bảo vệ chống rò rỉ dữ liệu để tăng cường bảo mật cho lưu lượng truy cập ra ngoài (egress traffic).
Truy cập người dùng
- Người dùng truy cập Synapse Studio bằng trình duyệt web từ mạng nội bộ bị hạn chế (restricted on-premises network) thông qua Azure Synapse Private Link Hubs. Private Link Hubs được sử dụng để tải Synapse Studio qua các liên kết riêng (private links) với bảo mật nâng cao. Một tài nguyên Azure Synapse Private Link Hubs duy nhất được triển khai trong gói đăng ký Kết nối (Connectivity subscription) với điểm cuối riêng trong mạng ảo trung tâm (hub virtual network). Mạng ảo trung tâm được kết nối với mạng nội bộ qua Azure ExpressRoute. Tài nguyên Private Link Hubs có thể được sử dụng để kết nối riêng tới tất cả các không gian làm việc Azure Synapse thông qua Synapse Studio.
- Các kỹ sư dữ liệu (data engineers) sử dụng hoạt động Sao chép (Copy activity) của đường ống Azure Synapse (Azure Synapse pipelines), được thực thi trong môi trường tích hợp tự lưu trữ (self-hosted integration runtime), để thu thập dữ liệu giữa kho dữ liệu nội bộ (on-premises data store) và các kho dữ liệu đám mây như Data Lake Storage và các hồ SQL. Môi trường nội bộ được kết nối qua ExpressRoute tới mạng ảo trung tâm trên Azure.
- Các kỹ sư dữ liệu sử dụng hoạt động Luồng dữ liệu (Data Flow activity) của Azure Synapse và các hồ Spark để chuyển đổi dữ liệu (transform data) được lưu trữ trên các kho dữ liệu đám mây, kết nối với Mạng ảo được quản lý của Azure Synapse thông qua các điểm cuối riêng được quản lý. Đối với dữ liệu trong môi trường nội bộ, việc chuyển đổi với các hồ Spark yêu cầu kết nối qua Dịch vụ Liên kết riêng tùy chỉnh (custom Private Link service). Dịch vụ Liên kết riêng tùy chỉnh sử dụng các máy ảo Dịch địa chỉ mạng ( NAT VMs) để kết nối với kho dữ liệu nội bộ. Để biết thêm thông tin về cách thiết lập Dịch vụ Liên kết riêng để truy cập kho dữ liệu SQL nội bộ từ Mạng ảo được quản lý của Data Factory, xem How to access on-premises SQL Server.
- Nếu bảo vệ chống rò rỉ dữ liệu được bật trong Azure Synapse, nhật ký ứng dụng Spark (Spark application logging) tới không gian làm việc Log Analytics sẽ được định tuyến qua tài nguyên Phạm vi Liên kết riêng Azure Monitor (Azure Monitor Private Link Scope) được kết nối với Mạng ảo được quản lý của Azure Synapse thông qua điểm cuối riêng được quản lý. Như trong sơ đồ, một tài nguyên Phạm vi Liên kết riêng Azure Monitor duy nhất được lưu trữ trong gói đăng ký Kết nối với điểm cuối riêng trong mạng ảo trung tâm. Tất cả các không gian làm việc Log Analytics và tài nguyên Application Insights có thể được truy cập riêng thông qua Phạm vi Liên kết riêng Azure Monitor.
Thành phần (Components)
- Azure Synapse Analytics: Dịch vụ phân tích doanh nghiệp tăng tốc thời gian thu nhận thông tin (time to insight) trên Data Warehouse và hệ thống dữ liệu lớn.
- Mạng ảo được quản lý của Azure Synapse (Azure Synapse Managed Virtual Network): Cung cấp khả năng cách ly mạng cho các không gian làm việc Azure Synapse khỏi các không gian làm việc khác.
- Điểm cuối riêng được quản lý của Azure Synapse (Azure Synapse Managed private endpoints): Là các điểm cuối riêng được tạo trong Mạng ảo được quản lý liên kết với không gian làm việc Azure Synapse, thiết lập kết nối liên kết riêng tới các tài nguyên Azure bên ngoài Mạng ảo được quản lý.
- Không gian làm việc Azure Synapse với bảo vệ chống rò rỉ dữ liệu: Ngăn chặn rò rỉ dữ liệu nhạy cảm (sensitive data exfiltration) tới các vị trí ngoài phạm vi tổ chức.
- Azure Private Link Hubs: Tài nguyên Azure đóng vai trò là cầu nối giữa mạng được bảo mật và trải nghiệm web Synapse Studio.
- Môi trường tích hợp (Integration runtime): Cơ sở hạ tầng tính toán mà đường ống Azure Synapse sử dụng để cung cấp khả năng tích hợp dữ liệu trên các môi trường mạng khác nhau. Chạy hoạt động Luồng dữ liệu trong môi trường tích hợp Azure được quản lý hoặc hoạt động Sao chép qua các mạng bằng môi trường tích hợp tự lưu trữ.
- Azure Private Link: Cung cấp truy cập riêng tới các dịch vụ được lưu trữ trên Azure. Dịch vụ Liên kết riêng Azure (Azure Private Link service) là tham chiếu tới dịch vụ của bạn được hỗ trợ bởi Liên kết riêng. Bạn có thể bật dịch vụ chạy sau bộ cân bằng tải chuẩn Azure (Azure standard load balancer) cho truy cập Liên kết riêng, sau đó mở rộng Dịch vụ Liên kết riêng tới Mạng ảo được quản lý của Azure Synapse qua điểm cuối riêng được quản lý.
- Apache Spark trong Azure Synapse: Một trong nhiều triển khai của Microsoft cho Apache Spark trên đám mây. Azure Synapse giúp dễ dàng tạo và cấu hình khả năng Spark trên Azure.
- Data Lake Storage: Sử dụng Azure Storage làm nền tảng để xây dựng Data Lake doanh nghiệp trên Azure.
- Key Vault: Cho phép lưu trữ bí mật (secrets), khóa (keys), và chứng chỉ (certificates) với bảo mật nâng cao.
- Mô hình triển khai Azure (Azure landing zones): Là kết quả của môi trường Azure đa gói đăng ký, đáp ứng các yêu cầu về quy mô, quản trị bảo mật (security governance), mạng, và danh tính (identity). Mô hình triển khai hỗ trợ di chuyển, hiện đại hóa, và đổi mới ở quy mô doanh nghiệp trên Azure.
Chi tiết kịch bản (Scenario details)
Bài viết này cung cấp cách tiếp cận để chuẩn bị các gói đăng ký mô hình triển khai Azure cho việc triển khai Azure Synapse mở rộng và bảo mật nâng cao. Giải pháp tuân thủ các thực tiễn tốt nhất của Khung Áp dụng Đám mây (Cloud Adoption Framework) cho Azure và tập trung vào các hướng dẫn thiết kế cho mô hình triển khai quy mô doanh nghiệp.
Nhiều tổ chức lớn với các đơn vị kinh doanh tự trị, phân tán muốn áp dụng các giải pháp phân tích và khoa học dữ liệu (data science) ở quy mô lớn. Việc xây dựng nền tảng phù hợp là rất quan trọng. Azure Synapse và Data Lake Storage là các thành phần trung tâm để triển khai phân tích quy mô đám mây và kiến trúc lưới dữ liệu (data mesh architecture).
Bài viết này cung cấp các khuyến nghị để triển khai Azure Synapse trên các nhóm quản lý (management groups), cấu trúc gói đăng ký (subscription topology), mạng, danh tính, và bảo mật.
Bằng cách sử dụng giải pháp này, bạn có thể đạt được:
- Một nền tảng phân tích được quản trị tốt, bảo mật nâng cao, và mở rộng theo nhu cầu trên nhiều mô hình triển khai dữ liệu.
- Giảm chi phí vận hành (operational overhead) cho các nhóm ứng dụng dữ liệu. Họ có thể tập trung vào kỹ thuật dữ liệu (data engineering) và phân tích, để lại việc quản lý nền tảng Azure Synapse cho nhóm vận hành mô hình triển khai dữ liệu.
- Thực thi tập trung tuân thủ tổ chức (organizational compliance) trên các mô hình triển khai dữ liệu.
Các trường hợp sử dụng tiềm năng (Potential use cases)
Kiến trúc này hữu ích cho các tổ chức yêu cầu:
- Một mặt phẳng điều khiển và dữ liệu (control and data plane) được tích hợp hoàn toàn và hoạt động ngay từ đầu cho khối lượng công việc Azure Synapse.
- Một triển khai Azure Synapse với bảo mật nâng cao, tập trung vào bảo mật dữ liệu (data security) và quyền riêng tư (privacy).
Kiến trúc này có thể là điểm bắt đầu cho các triển khai quy mô lớn của khối lượng công việc Azure Synapse trên các gói đăng ký mô hình triển khai dữ liệu.
Cấu trúc gói đăng ký (Subscription topology)
Các tổ chức xây dựng nền tảng dữ liệu và phân tích quy mô lớn tìm cách mở rộng nỗ lực một cách nhất quán và hiệu quả theo thời gian.
- Bằng cách sử dụng các gói đăng ký như một đơn vị mở rộng (scale unit) cho các mô hình triển khai dữ liệu, tổ chức có thể vượt qua các giới hạn cấp gói đăng ký, đảm bảo cách ly và quản lý truy cập phù hợp (access management), và linh hoạt cho sự phát triển trong tương lai của dấu chân nền tảng dữ liệu (data platform footprint). Trong một mô hình triển khai dữ liệu, bạn có thể nhóm Azure Synapse và các tài sản dữ liệu khác cho các trường hợp sử dụng phân tích cụ thể trong một nhóm tài nguyên (resource group).
- Việc thiết lập nhóm quản lý và gói đăng ký là trách nhiệm của chủ sở hữu nền tảng mô hình triển khai (landing zone platform owner), người cung cấp quyền truy cập cần thiết cho quản trị viên nền tảng dữ liệu để cung cấp Azure Synapse và các dịch vụ khác.
- Tất cả các chính sách tuân thủ dữ liệu toàn tổ chức (organization-wide data compliance policies) được áp dụng ở cấp nhóm quản lý để thực thi tuân thủ trên các mô hình triển khai dữ liệu.
Cấu trúc mạng (Networking topology)
Để biết các khuyến nghị cho mô hình triển khai sử dụng cấu trúc mạng WAN ảo (virtual WAN network topology, hub and spoke NAM), xem Virtual WAN network topology. Các khuyến nghị này phù hợp với thực tiễn tốt nhất của Khung Áp dụng Đám mây.
Dưới đây là một số khuyến nghị cho cấu trúc mạng Azure Synapse:
- Triển khai cách ly mạng cho các tài nguyên Azure Synapse qua Mạng ảo được quản lý. Triển khai bảo vệ chống rò rỉ dữ liệu bằng cách giới hạn truy cập ra ngoài chỉ tới các đích được phê duyệt.
- Cấu hình kết nối riêng tới:
- Các dịch vụ Azure như Data Lake Storage, Key Vault, và Azure SQL, qua các điểm cuối riêng được quản lý.
- Các kho dữ liệu và ứng dụng nội bộ qua ExpressRoute, sử dụng môi trường tích hợp tự lưu trữ. Sử dụng Dịch vụ Liên kết riêng tùy chỉnh để kết nối các tài nguyên Spark tới các kho dữ liệu nội bộ nếu không thể sử dụng môi trường tích hợp tự lưu trữ.
- Synapse Studio, qua các trung tâm liên kết riêng (private link hubs) được triển khai trong gói đăng ký Kết nối.
- Không gian làm việc Log Analytics, qua Phạm vi Liên kết riêng Azure Monitor, được triển khai trong gói đăng ký Kết nối.
Quản lý danh tính và truy cập (Identity and access management)
Các doanh nghiệp thường sử dụng cách tiếp cận ít đặc quyền nhất (least-privileged approach) cho truy cập vận hành. Họ sử dụng Microsoft Entra ID, kiểm soát truy cập dựa trên vai trò Azure (Azure RBAC), và các định nghĩa vai trò tùy chỉnh (custom role definitions) để quản lý truy cập.
- Triển khai kiểm soát truy cập chi tiết (fine-grained access controls) trong Azure Synapse bằng cách sử dụng các vai trò Azure, vai trò Azure Synapse, vai trò SQL, và quyền Git. Để biết thêm thông tin về kiểm soát truy cập không gian làm việc Azure Synapse, xem Azure Synapse workspace access control.
- Vai trò Azure Synapse cung cấp các bộ quyền (sets of permissions) có thể áp dụng ở các phạm vi khác nhau. Tính chi tiết này giúp dễ dàng cấp quyền truy cập phù hợp cho quản trị viên, nhà phát triển, nhân viên bảo mật, và nhà vận hành tới các tài nguyên tính toán và dữ liệu.
- Bạn có thể đơn giản hóa kiểm soát truy cập bằng cách sử dụng các nhóm bảo mật (security groups) phù hợp với vai trò công việc (job roles). Để quản lý truy cập, bạn chỉ cần thêm hoặc xóa người dùng khỏi các nhóm bảo mật phù hợp.
- Bạn có thể cung cấp bảo mật cho giao tiếp giữa Azure Synapse và các dịch vụ Azure khác, như Data Lake Storage và Key Vault, bằng cách sử dụng danh tính được quản lý do người dùng chỉ định (user-assigned managed identities). Điều này loại bỏ nhu cầu quản lý thông tin xác thực (credentials). Danh tính được quản lý cung cấp một danh tính mà ứng dụng có thể sử dụng khi kết nối với các tài nguyên hỗ trợ xác thực Microsoft Entra.
Tự động hóa ứng dụng và DevOps (Application automation and DevOps)
- Tích hợp và phân phối liên tục (continuous integration and delivery) cho không gian làm việc Azure Synapse được thực hiện qua tích hợp Git và thăng cấp tất cả các thực thể (entities) từ một môi trường (phát triển, kiểm thử, sản xuất) sang môi trường khác.
- Triển khai tự động hóa với các mẫu Bicep / Azure Resource Manager để tạo hoặc cập nhật các tài nguyên không gian làm việc (hồ và không gian làm việc). Di chuyển các hiện vật (artifacts) như tập lệnh SQL, sổ tay (notebooks), định nghĩa công việc Spark (Spark job definitions), đường ống (pipelines), tập dữ liệu (datasets), và các hiện vật khác bằng cách sử dụng công cụ Triển khai Không gian làm việc Synapse (Synapse Workspace Deployment tools) trong Azure DevOps hoặc trên GitHub, như được mô tả trong Continuous integration and delivery for Azure Synapse Analytics workspace.
Các cân nhắc (Considerations)
Các cân nhắc này triển khai các trụ cột của Khung Kiến trúc Tốt của Azure (Azure Well-Architected Framework), là tập hợp các nguyên tắc hướng dẫn để cải thiện chất lượng của khối lượng công việc. Để biết thêm thông tin, xem Well-Architected Framework.
Độ tin cậy (Reliability)
Độ tin cậy đảm bảo ứng dụng của bạn có thể đáp ứng các cam kết với khách hàng. Để biết thêm thông tin, xem Design review checklist for Reliability.
- Azure Synapse, Data Lake Storage, và Key Vault là các dịch vụ nền tảng như dịch vụ được quản lý (managed PaaS services) với tính sẵn sàng cao (high availability) và khả năng phục hồi (resiliency) tích hợp. Bạn có thể sử dụng các nút dự phòng (redundant nodes) để làm cho môi trường tích hợp tự lưu trữ và các máy ảo NAT trong kiến trúc có tính sẵn sàng cao.
- Để biết thông tin về thỏa thuận mức dịch vụ (SLA), xem SLA for Azure Synapse Analytics.
- Để biết các khuyến nghị về tính liên tục kinh doanh và khôi phục thảm họa (business continuity and disaster recovery) cho Azure Synapse, xem Database-restore points for Azure Synapse Analytics.
Bảo mật (Security)
Bảo mật cung cấp sự đảm bảo chống lại các cuộc tấn công có chủ ý và lạm dụng dữ liệu và hệ thống giá trị của bạn. Để biết thêm thông tin, xem Design review checklist for Security.
- Đường cơ sở bảo mật này áp dụng hướng dẫn từ Azure Security Benchmark 2.0 cho các hồ SQL chuyên dụng của Azure Synapse (Azure Synapse dedicated SQL pools).
- Để biết thông tin về các kiểm soát bảo mật chính sách Azure cho Azure Synapse, xem Azure Policy Regulatory Compliance controls for Azure Synapse Analytics.
- Để biết các chính sách tích hợp quan trọng cho không gian làm việc Azure Synapse, xem Azure Policy built-in definitions for Azure Synapse Analytics.
Tối ưu hóa chi phí (Cost Optimization)
Tối ưu hóa chi phí tập trung vào các cách giảm chi phí không cần thiết và cải thiện hiệu quả vận hành. Để biết thêm thông tin, xem Design review checklist for Cost Optimization.
- Các tài nguyên phân tích được đo bằng Đơn vị Data Warehouse (Data Warehouse Units – DWUs), theo dõi CPU, bộ nhớ, và IO. Chúng tôi khuyến nghị bắt đầu với DWUs nhỏ và đo hiệu suất cho các hoạt động tiêu tốn tài nguyên, như tải dữ liệu nặng hoặc chuyển đổi dữ liệu. Điều này giúp bạn xác định số lượng đơn vị cần thiết để tối ưu hóa khối lượng công việc.
- Tiết kiệm chi phí với giá trả theo sử dụng (pay-as-you-go prices) bằng cách sử dụng Đơn vị Cam kết Azure Synapse (Azure Synapse Commit Units – SCUs) được mua trước.
- Để khám phá các tùy chọn giá và ước tính chi phí triển khai Azure Synapse, xem Azure Synapse Analytics pricing.
- Ước tính giá này bao gồm chi phí triển khai các dịch vụ bằng các bước tự động hóa được mô tả trong phần tiếp theo.
Triển khai kịch bản này (Deploy this scenario)
Điều kiện tiên quyết: Bạn phải có tài khoản Azure. Nếu chưa có gói đăng ký Azure, hãy tạo tài khoản miễn phí trước khi bắt đầu.
Tất cả mã cho kịch bản này có sẵn trong kho mã Synapse Enterprise Codebase trên GitHub tại Synapse Enterprise Codebase repository.
Triển khai tự động sử dụng các mẫu Bicep để triển khai các thành phần sau:
- Một nhóm tài nguyên (resource group)
- Một mạng ảo và các mạng con (subnets)
- Các tầng lưu trữ (Bronze, Silver, và Gold) với các điểm cuối riêng
- Một không gian làm việc Azure Synapse với Mạng ảo được quản lý
- Dịch vụ Liên kết riêng và các điểm cuối
- Bộ cân bằng tải (load balancer) và các máy ảo NAT
- Một tài nguyên môi trường tích hợp tự lưu trữ
Một tập lệnh PowerShell để điều phối triển khai có sẵn trong kho. Bạn có thể chạy tập lệnh PowerShell hoặc sử dụng tệp pipeline.yml để triển khai nó như một đường ống trong Azure DevOps.
Để biết thêm thông tin về các mẫu Bicep, các bước triển khai, và các giả định, xem tệp readme tại readme file.
Người đóng góp (Contributors)
Bài viết này được duy trì bởi Microsoft. Nó được viết bởi các tác giả sau:
Tác giả chính:
- Vidya Narasimhan | Kiến trúc sư Giải pháp Đám mây Chính
- Sabyasachi Samaddar | Kiến trúc sư Giải pháp Đám mây Cao cấp
Người đóng góp khác:
- Mick Alberts | Nhà văn Kỹ thuật
Để xem các hồ sơ LinkedIn không công khai, hãy đăng nhập vào LinkedIn tại LinkedIn.
Các bước tiếp theo (Next steps)
- Để biết thông tin về việc tạo nền tảng dữ liệu và phân tích toàn diện, xem Cloud-scale analytics guidance.
- Khám phá lưới dữ liệu (data mesh) như một mô hình kiến trúc để triển khai các nền tảng dữ liệu doanh nghiệp trong các tổ chức lớn, phức tạp tại data mesh.
- Xem tài liệu trắng về bảo mật Azure Synapse tại Azure Synapse security white paper.
Để biết thêm thông tin về các dịch vụ được mô tả trong bài viết này, xem các tài nguyên sau: