Search for answers or browse our knowledge base.
Tổng quan kiến trúc SAP CDC trong Azure Data Factory
Tổng quan và kiến trúc của SAP CDC trong Azure Data Factory
ÁP DỤNG CHO: Azure Data Factory, Azure Synapse Analytics
Mẹo
Hãy thử Azure Data Factory trong Microsoft Fabric, một giải pháp phân tích toàn diện cho doanh nghiệp. Microsoft Fabric bao gồm mọi thứ từ di chuyển dữ liệu (data movement) đến khoa học dữ liệu (data science), phân tích thời gian thực (real-time analytics), trí tuệ kinh doanh (business intelligence) và báo cáo (reporting). Tìm hiểu cách bắt đầu dùng thử miễn phí tại start a new trial for free!
Tìm hiểu về khả năng SAP CDC (SAP change data capture – CDC) trong Azure Data Factory và khám phá kiến trúc của giải pháp SAP CDC. Với SAP CDC, bạn có thể dễ dàng trích xuất dữ liệu thay đổi từ các hệ thống SAP, giúp tối ưu hóa quy trình tích hợp dữ liệu.
Azure Data Factory là một nền tảng tích hợp dữ liệu ETL và ELT dưới dạng dịch vụ (Platform as a Service – PaaS). Đối với tích hợp dữ liệu SAP (SAP data integration), Data Factory hiện cung cấp sáu trình kết nối (connectors) sẵn sàng sử dụng (general availability), trong đó nổi bật là giải pháp SAP CDC.
Nhu cầu trích xuất dữ liệu với SAP CDC
Các trình kết nối SAP (SAP connectors) trong Data Factory, bao gồm cả SAP CDC, chỉ trích xuất dữ liệu nguồn SAP theo lô (batches). Mỗi lô xử lý dữ liệu hiện có và dữ liệu mới theo cách tương tự. Trong chế độ trích xuất theo lô (batch mode), các thay đổi giữa tập dữ liệu hiện có và tập dữ liệu mới không được xác định. Chế độ trích xuất này không tối ưu khi bạn có các tập dữ liệu lớn như các bảng chứa hàng triệu hoặc hàng tỷ bản ghi thay đổi thường xuyên, và đây là lúc SAP CDC trở thành giải pháp hiệu quả hơn.
Bạn có thể giữ bản sao dữ liệu SAP của mình luôn mới và cập nhật bằng cách thường xuyên trích xuất toàn bộ tập dữ liệu, nhưng cách tiếp cận này tốn kém và không hiệu quả. Bạn cũng có thể sử dụng một giải pháp thay thế thủ công, giới hạn để trích xuất chủ yếu các bản ghi mới hoặc đã cập nhật. Trong một quy trình gọi là đánh dấu thời gian (watermarking), việc trích xuất yêu cầu sử dụng một cột thời gian (timestamp column), các giá trị tăng đơn điệu (monotonically increasing values), và liên tục theo dõi giá trị cao nhất kể từ lần trích xuất cuối cùng. Tuy nhiên, một số bảng không có cột nào có thể sử dụng cho đánh dấu thời gian (watermarking). Quy trình này cũng không xác định được bản ghi bị xóa như một thay đổi trong tập dữ liệu, khiến SAP CDC trở thành lựa chọn tốt hơn để giải quyết vấn đề này.
Khả năng của SAP CDC trong Azure Data Factory
Khách hàng của Microsoft cho biết họ cần một trình kết nối (connector) có thể trích xuất chỉ dữ liệu thay đổi (delta) giữa hai tập dữ liệu, và SAP CDC đã đáp ứng nhu cầu này. Trong dữ liệu, dữ liệu thay đổi (delta) là bất kỳ thay đổi nào trong tập dữ liệu do cập nhật (update), chèn (insert) hoặc xóa (deletion) trong tập dữ liệu. Trình kết nối SAP CDC sử dụng tính năng bắt thay đổi dữ liệu SAP (SAP change data capture – CDC) có trong hầu hết các hệ thống SAP để xác định dữ liệu thay đổi (delta) trong tập dữ liệu. Khả năng SAP CDC trong Data Factory sử dụng khung Cung cấp dữ liệu vận hành SAP (SAP Operational Data Provisioning – ODP) để sao chép dữ liệu thay đổi (delta) trong tập dữ liệu nguồn SAP.
Bài viết này cung cấp kiến trúc cấp cao của khả năng SAP CDC trong Azure Data Factory. Tìm hiểu thêm về SAP CDC:
- Prerequisites and setup – Điều kiện tiên quyết và thiết lập
- Set up a self-hosted integration runtime – Thiết lập một môi trường tích hợp tự quản (self-hosted integration runtime)
- Set up a linked service and source dataset – Thiết lập dịch vụ liên kết và tập dữ liệu nguồn (linked service and source dataset)
- Manage your solution – Quản lý giải pháp của bạn
Cách sử dụng SAP CDC trong Azure Data Factory
Trình kết nối SAP CDC (SAP CDC connector) là cốt lõi của khả năng SAP CDC. Trình kết nối SAP CDC có thể kết nối với tất cả các hệ thống SAP hỗ trợ ODP, bao gồm SAP ECC, SAP S/4HANA, SAP BW và SAP BW/4HANA. Giải pháp SAP CDC hoạt động trực tiếp tại lớp ứng dụng (application layer) hoặc gián tiếp thông qua Máy chủ sao chép biến đổi cảnh quan SAP (SAP Landscape Transformation Replication Server – SLT) như một proxy. SAP CDC không phụ thuộc vào đánh dấu thời gian (watermarking) để trích xuất dữ liệu SAP, dù là toàn bộ (fully) hay gia tăng (incrementally). Dữ liệu mà trình kết nối SAP CDC trích xuất không chỉ bao gồm các bảng vật lý (physical tables) mà còn cả các đối tượng logic (logical objects) được tạo bằng cách sử dụng các bảng. Một ví dụ về đối tượng dựa trên bảng là chế độ xem Dịch vụ dữ liệu lõi lập trình ứng dụng kinh doanh nâng cao SAP (SAP Advanced Business Application Programming – ABAP Core Data Services – CDS view).
Sử dụng trình kết nối SAP CDC với các tính năng của Data Factory như hoạt động luồng dữ liệu ánh xạ (mapping data flow activities) và kích hoạt cửa sổ lật (tumbling window triggers) để tạo ra giải pháp sao chép SAP CDC có độ trễ thấp (low-latency) trong một đường ống tự quản (self-managed pipeline).
Kiến trúc của giải pháp SAP CDC
Giải pháp SAP CDC trong Azure Data Factory là một trình kết nối giữa SAP và Azure. Phía SAP bao gồm trình kết nối ODP SAP (SAP ODP connector) gọi API ODP qua các mô-đun Gọi hàm từ xa tiêu chuẩn (Remote Function Call – RFC) để trích xuất dữ liệu SAP thô (raw SAP data) toàn bộ và dữ liệu thay đổi (delta).
Phía Azure bao gồm luồng dữ liệu ánh xạ (mapping data flow) có thể chuyển đổi và tải dữ liệu SAP vào bất kỳ đích dữ liệu (data sink) nào được hỗ trợ bởi luồng dữ liệu ánh xạ. Một số tùy chọn này là các đích lưu trữ như Lưu trữ Hồ Dữ liệu Azure Gen2 (Azure Data Lake Storage Gen2) hoặc cơ sở dữ liệu như Cơ sở dữ liệu SQL Azure (Azure SQL Database) hoặc Azure Synapse Analytics. Hoạt động luồng dữ liệu ánh xạ (mapping data flow activity) cũng có thể tải kết quả vào Lưu trữ Hồ Dữ liệu Gen2 ở định dạng delta (delta format). Bạn có thể sử dụng tính năng Du hành thời gian Hồ Delta (Delta Lake Time Travel feature) để tạo các ảnh chụp nhanh (snapshots) của dữ liệu SAP cho một khoảng thời gian cụ thể. Bạn có thể chạy đường ống (pipeline) và luồng dữ liệu ánh xạ (mapping data flows) thường xuyên bằng cách sử dụng kích hoạt cửa sổ lật của Data Factory (tumbling window trigger) để sao chép dữ liệu SAP trong Azure với độ trễ thấp (low latency) và không cần sử dụng đánh dấu thời gian (watermarking).

Hình ảnh: Sơ đồ kiến trúc hiển thị luồng dữ liệu từ các hệ thống SAP (SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP SLT, SAP HANA, CDS Views) qua trình kết nối SAP CDC (SAP CDC Connector) đến Microsoft Azure, bao gồm Nền tảng dữ liệu thông minh Microsoft (Microsoft Intelligent Data Platform), dẫn đến những hiểu biết có thể hành động (Actionable Insights).
Để bắt đầu với SAP CDC, hãy tạo một dịch vụ liên kết SAP CDC (SAP CDC linked service), một tập dữ liệu nguồn SAP CDC (SAP CDC source dataset), và một đường ống (pipeline) với hoạt động luồng dữ liệu ánh xạ (mapping data flow activity) trong đó bạn sử dụng nguồn SAP CDC (SAP CDC source). Để trích xuất dữ liệu từ SAP bằng SAP CDC, cần có một môi trường tích hợp tự quản (self-hosted integration runtime) mà bạn phải cài đặt trên một máy tính tại chỗ (on-premises computer) hoặc trên một máy ảo (virtual machine – VM) có khả năng kết nối trực tiếp với hệ thống nguồn SAP (SAP source systems) hoặc máy chủ SLT (SLT server) của bạn. Hoạt động luồng dữ liệu ánh xạ (mapping data flow activity) chạy trên một cụm Azure Databricks không máy chủ (serverless Azure Databricks) hoặc cụm Apache Spark, hoặc trên một môi trường tích hợp Azure (Azure integration runtime). Cần cấu hình một bộ nhớ dàn dựng (staging storage) trong hoạt động luồng dữ liệu ánh xạ để môi trường tích hợp tự quản của bạn hoạt động liền mạch với môi trường tích hợp luồng dữ liệu ánh xạ (mapping data flow integration runtime).
Trình kết nối SAP CDC (SAP CDC connector) sử dụng khung Cung cấp dữ liệu vận hành SAP (SAP Operational Data Provisioning – ODP) để trích xuất các loại nguồn dữ liệu khác nhau, bao gồm:
- Trình trích xuất SAP (SAP extractors), ban đầu được xây dựng để trích xuất dữ liệu từ SAP ECC và tải nó vào SAP BW.
- Chế độ xem CDS ABAP (ABAP CDS views), tiêu chuẩn trích xuất dữ liệu mới cho SAP S/4HANA.
- Tập dữ liệu Nhà cung cấp thông tin (InfoProviders) và Đối tượng thông tin (InfoObjects) trong SAP BW và SAP BW/4HANA.
- Bảng ứng dụng SAP (SAP application tables), khi bạn sử dụng máy chủ sao chép LT SAP (SAP LT replication server – SLT) như một proxy.
Trong quá trình này, các nguồn dữ liệu SAP (SAP data sources) đóng vai trò là nhà cung cấp (providers). Các nhà cung cấp chạy trên hệ thống SAP để tạo ra dữ liệu toàn bộ (full) hoặc dữ liệu gia tăng (incremental) trong hàng đợi delta vận hành (operational delta queue – ODQ). Nguồn luồng dữ liệu ánh xạ (mapping data flow source) là một thuê bao (subscriber) của ODQ.

SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP SLT
Vì ODP tách biệt hoàn toàn các nhà cung cấp (providers) khỏi các thuê bao (subscribers), bất kỳ tài liệu SAP nào cung cấp cấu hình nhà cung cấp (provider configurations) đều áp dụng cho Data Factory như một thuê bao (subscriber). Để biết thêm thông tin về ODP trong SAP CDC, xem Introduction to operational data provisioning – Giới thiệu về cung cấp dữ liệu vận hành.
Nội dung liên quan
Prerequisites and setup for the SAP CDC solution – Điều kiện tiên quyết và thiết lập cho giải pháp SAP CDC
Bạn tìm hiểu thêm về kiến trúc của SAP CDC tại đây, hoặc liên lạc với BSD 0918 339 689 để tìm hiểu thêm về việc tích hợp dữ liệu của SAP vào Microsoft Fabric, tìm hiểu thêm về các tiếp cận và triển khai nền tảng dữ liệu Microsoft Fabric với SAP ERP