Giải thích về Mirroring trong Microsoft Fabric: Lợi ích, trường hợp sử dụng và giá cả được làm rõ

Đồng tác giả: Maraki Ketema, Quản lý Sản phẩm Chính

Mở khóa giá trị dữ liệu quy mô lớn với Mirroring trong Microsoft Fabric

Trong kỷ nguyên dữ liệu hiện đại, tốc độ, quy mô và sự đơn giản không còn là những điều xa xỉ—mà là kỳ vọng. Các tổ chức muốn khai thác sức mạnh của dữ liệu vận hành (operational data) theo thời gian thực (real-time), mà không phải chịu gánh nặng từ các đường ống ETL phức tạp (ETL pipelines) hay sự chậm trễ trong việc di chuyển dữ liệu (data movement latency). Đây chính là lúc Mirroring trong Microsoft Fabric phát huy vai trò, định nghĩa lại cách dữ liệu được đồng bộ hóa và kích hoạt trên toàn hệ sinh thái. Microsoft Fabric là một giải pháp phân tích hợp nhất giúp tổ chức quản lý và phân tích dữ liệu hiệu quả.

Dữ liệu rất phức tạp. Nó thường phân tán trên nhiều hệ thống, được lưu trữ dưới nhiều định dạng, bị khóa trong các kho dữ liệu riêng lẻ (silos) và liên tục thay đổi—khiến việc khai thác toàn bộ tiềm năng của nó trở nên khó khăn. Việc tập hợp dữ liệu này để hỗ trợ các khối lượng công việc AI và BI (business intelligence) thường đòi hỏi các quy trình ETL tốn thời gian (time-consuming ETL processes), các đường ống tùy chỉnh (custom pipelines), và chuyên môn kỹ thuật sâu rộng (deep technical expertise). Không có cách nào đơn giản để bắt đầu… cho đến khi Microsoft Fabric giới thiệu Mirroring.

Mirroring trong Microsoft Fabric là gì?

Khi nào bạn nên sử dụng Mirroring trong Microsoft Fabric—và quan trọng hơn, giá trị mà nó mang lại cho bạn và tổ chức của bạn là gì? Hãy cùng tìm hiểu chi tiết.

Mirroring trong Microsoft Fabric cho phép bạn tạo một bản sao gần thời gian thực (near real-time replica) của cơ sở dữ liệu vận hành (operational database) trực tiếp trong OneLake của Microsoft Fabric. OneLake là một hồ dữ liệu được quản lý hoàn toàn (fully managed data lake), dựa trên mô hình SaaS (Software as a Service), được tích hợp trong Microsoft Fabric, được thiết kế để hợp nhất tất cả dữ liệu của bạn—cả dữ liệu có cấu trúc (structured) và không có cấu trúc (unstructured)—trên nhiều lĩnh vực (domains). OneLake cung cấp một vị trí duy nhất, an toàn và được quản trị (governed location), nơi dữ liệu từ nhiều nguồn khác nhau có thể được đồng bộ hóa (synchronized), lưu trữ (stored), và phân tích (analyzed) một cách liền mạch, giúp dễ dàng khai thác thông tin chi tiết (insights) và hỗ trợ AI cùng phân tích (analytics) quy mô lớn trong Microsoft Fabric. Mirroring là một cơ chế di chuyển dữ liệu không cần ETL (zero-ETL), được quản lý hoàn toàn (fully managed), và hiệu suất cao (high-performance), giúp hệ thống phân tích (analytical systems) và giao dịch (transactional systems) của bạn luôn đồng bộ—mà không gặp rắc rối.

Mirroring trong Microsoft Fabric cung cấp một phương thức hiện đại để truy cập và đồng bộ hóa liên tục, liền mạch dữ liệu hiện có của bạn từ bất kỳ cơ sở dữ liệu (database) hoặc kho dữ liệu (data warehouse) nào vào OneLake trong Microsoft Fabric.

Khi nào nên sử dụng Mirroring trong Microsoft Fabric?

Mirroring trong Microsoft Fabric phù hợp trong các trường hợp sau:

Phân tích dữ liệu vận hành gần thời gian thực (near real-time operational data analysis)
Ví dụ: Dữ liệu từ Azure Cosmos DB, Azure SQL Database, Azure Database for PostgreSQL, SQL Server hoặc Snowflake cần được phân tích bằng bộ công cụ của Microsoft Fabric (Power BI, SQL Notebooks, v.v.).
Tránh quản lý đường ống ETL (avoid managing ETL pipelines) – Mirroring trong Microsoft Fabric loại bỏ nhu cầu lập lịch và quản lý các đường ống nhập liệu truyền thống (traditional ingestion pipelines).
Tạo một nguồn dữ liệu duy nhất (single source of truth) cho cả hệ thống vận hành và phân tích
Mirroring trong Microsoft Fabric giữ dữ liệu của bạn đồng bộ với hệ thống nguồn (source system), đảm bảo bạn luôn phân tích dữ liệu mới nhất.
Xây dựng kiến trúc Lakehouse và cần cập nhật theo thời gian thực (real-time updates)
Dữ liệu được sao chép (mirrored data) sẽ được lưu vào OneLake, giúp tích hợp liền mạch với các khối lượng công việc khác trong Microsoft Fabric như Kỹ thuật Dữ liệu (Data Engineering), Khoa học Dữ liệu (Data Science), và Phân tích Thời gian Thực (Real-Time Analytics).

Khi dữ liệu được sao chép (mirrored), nó sẽ được nhân bản vào OneLake trong định dạng Delta Lake (Delta Lake format), cho phép truy vấn ngay lập tức thông qua các trải nghiệm của Microsoft Fabric như Lakehouse, Data Warehouse, Power BI, Notebooks hoặc Spark.

Nguồn dữ liệu được hỗ trợ bởi Mirroring trong Microsoft Fabric

Hình ảnh: Hình 1 – Các nguồn dữ liệu được hỗ trợ bởi Mirroring (Data Sources supported by Mirroring).

Điều gì xảy ra nếu dữ liệu của bạn không nằm trong các hệ thống được hỗ trợ?

Hoặc nếu dữ liệu của bạn phân tán trên các cơ sở dữ liệu cũ (legacy databases), ứng dụng tùy chỉnh (custom apps), và các giải pháp đặc thù (bespoke solutions)—một số trong đó thậm chí không còn được hỗ trợ (ví dụ: SQL Server 2008)?

Ví dụ này nêu bật một thách thức mà nhiều khách hàng gặp phải: sự kết hợp phức tạp của các nguồn dữ liệu cũ (legacy data sources), hệ thống tại chỗ (on-prem systems), nền tảng đám mây hiện đại (modern cloud platforms), xuất dữ liệu CSV (CSV exports), và các tích hợp tùy chỉnh (custom-built integrations). Trong môi trường như vậy, việc nâng cao hệ sinh thái dữ liệu (data estate) có thể cảm thấy quá tải. Đây là lúc Open Mirroring trong Microsoft Fabric trở thành giải pháp lý tưởng.

Open Mirroring trong Microsoft Fabric là gì?

Open Mirroring là phương pháp của Microsoft cho phép bất kỳ ứng dụng hoặc nhà cung cấp dữ liệu nào ghi dữ liệu thay đổi (change data) trực tiếp vào cơ sở dữ liệu được sao chép (mirrored database) trong Microsoft Fabric. Open Mirroring trong Microsoft Fabric mang lại sự linh hoạt để bạn tự định nghĩa nguồn sao chép (mirroring source) của mình. Chỉ cần chuyển đổi dữ liệu của bạn thành định dạng Parquet hoặc CSV và tải nó vào OneLake. Từ đó, công cụ sao chép (replication engine) của Microsoft Fabric sẽ tự động chuyển đổi dữ liệu sang định dạng Delta (Delta format) và duy trì một bản sao cập nhật trong OneLake.

Dù dữ liệu của bạn bắt nguồn từ đâu, Open Mirroring trong Microsoft Fabric đảm bảo dữ liệu luôn có thể truy cập (accessible), cập nhật (current), và sẵn sàng để hỗ trợ bất kỳ khối lượng công việc nào trong Microsoft Fabric.

Điều gì xảy ra nếu dữ liệu nguồn của bạn thay đổi?

Khi dữ liệu nguồn thay đổi, bạn có thể sử dụng API công khai Open Mirroring (Open Mirroring public API) để ghi dữ liệu thay đổi trực tiếp vào Cơ sở dữ liệu được sao chép (Mirrored Database) trong Microsoft Fabric.

Khi nào nên sử dụng Open Mirroring trong Microsoft Fabric?

Sử dụng Open Mirroring trong Microsoft Fabric khi:

Dữ liệu của bạn nằm trong các hệ thống cũ (legacy systems), các giải pháp dữ liệu đặc thù (bespoke data solutions), và/hoặc các ứng dụng dữ liệu bên ngoài (external data applications).

Open Mirroring trong Microsoft Fabric được thiết kế không chỉ cho khách hàng mà còn cho các đối tác của chúng tôi. Chúng tôi đang xây dựng một hệ sinh thái hỗ trợ các nguồn Open Mirroring từ các ISV hàng đầu (leading ISVs), bao gồm: Striim, Oracle GoldenGate, MongoDB, Cluedin, DataStax (sắp ra mắt).

Nếu Mirroring được hỗ trợ cho nguồn dữ liệu của bạn, chúng tôi khuyên bạn nên sử dụng nó như tùy chọn ưu tiên. Đối với các nguồn dữ liệu không được hỗ trợ bởi Mirroring gốc (native mirroring), hãy chọn Open Mirroring trong Microsoft Fabric.

So sánh chính: Mirroring và Open Mirroring trong Microsoft Fabric

Tính năng (Feature)	Mirroring	Open Mirroring
Di chuyển dữ liệu (Data Movement)	Có (nhân bản vào OneLake)	Có (nhân bản vào OneLake)
Độ trễ (Latency)	Gần thời gian thực (Near real-time)	Phụ thuộc vào hệ thống nguồn (Depends on source system)
Định dạng trong Microsoft Fabric (Format in Fabric)	Delta Lake	Delta Lake
Nguồn được hỗ trợ (Supported Sources)	Snowflake, Azure SQL Database, Azure Cosmos DB, Azure SQL Managed Instance, Azure Database for PostgreSQL, Azure Databricks Catalog với nhiều nguồn khác sẽ sớm có trên lộ trình (roadmap)	Bất kỳ nguồn hoặc ứng dụng nào (Any source or application)
Quản trị (Governance)	Kiểm soát hoàn toàn trong OneLake	Kiểm soát hoàn toàn trong OneLake
Hiệu suất (Performance)	Cao (tối ưu cho Microsoft Fabric)	Cao (tối ưu cho Microsoft Fabric)
Mô hình giá (Pricing Model)	Tính toán để Sao chép (Compute to Replicate) + Lưu trữ trong Microsoft Fabric miễn phí (giới hạn 1TB/CU). Mô hình tiêu thụ dựa trên CU (CU based consumption model) để thực hiện phân tích trên dữ liệu được lưu trữ	Tính toán để Sao chép (Compute to Replicate) + Lưu trữ trong Microsoft Fabric miễn phí (giới hạn 1TB/CU). Mô hình tiêu thụ dựa trên CU (CU based consumption model) để thực hiện phân tích trên dữ liệu được lưu trữ

Các yếu tố về giá của Mirroring trong Microsoft Fabric

Mirroring

Lưu trữ trong OneLake (Storage in OneLake): Tận hưởng lưu trữ Mirroring miễn phí cho các bản sao (replicas) lên đến một giới hạn nhất định dựa trên dung lượng SKU đã mua mà bạn cung cấp (purchased capacity SKU). Ví dụ, nếu bạn mua F64, bạn sẽ nhận được 64 terabyte lưu trữ miễn phí. Lưu trữ OneLake chỉ bị tính phí khi vượt quá giới hạn lưu trữ Mirroring miễn phí, hoặc khi dung lượng tính toán đã cung cấp (provisioned compute capacity) bị tạm dừng*.
*Lưu trữ Mirroring miễn phí chỉ có thể được sử dụng để lưu trữ dữ liệu bản sao Mirroring (Mirroring replica data)—không áp dụng cho dữ liệu khác. Lưu trữ Mirroring miễn phí cũng chỉ dành cho các dung lượng đã mua (purchased capacities); không đi kèm với bản dùng thử miễn phí của Microsoft Fabric (Fabric free trial).
Trả phí cho Tính toán trong Microsoft Fabric (Compute in Fabric) để thực hiện phân tích hạ nguồn (downstream analytics).

Lợi ích của Mirroring trong Microsoft Fabric

Phân tích thời gian thực (real-time analytics) trên dữ liệu vận hành với độ trễ gần bằng không (near-zero latency).
Không yêu cầu đường ống ETL (ETL pipelines)—dữ liệu được sao chép tự động (mirrored automatically).
Hỗ trợ nhiều nguồn dữ liệu như Azure SQL Database, Azure Cosmos DB, Snowflake, v.v., (Xem bảng để biết danh sách đầy đủ).
Tích hợp với các khối lượng công việc của Microsoft Fabric như Power BI, Spark, và SQL thông qua OneLake.
Mô hình lưu trữ hiệu quả (efficient storage model) không có chi phí lưu trữ trùng lặp (duplicate storage costs).
Giá dựa trên tiêu thụ (consumption-based pricing)—bạn chỉ trả phí tính toán (compute) khi sử dụng.
Thời gian khai thác thông tin chi tiết nhanh hơn (faster time to insight) với nỗ lực kỹ thuật dữ liệu giảm (reduced data engineering effort).
Luôn cập nhật (always up to date) nhờ đồng bộ liên tục (continuous synchronization) với các hệ thống nguồn.

Lợi ích bổ sung của Open Mirroring trong Microsoft Fabric

Bên cạnh tất cả các lợi ích từ Mirroring, Open Mirroring trong Microsoft Fabric còn mang lại những ưu điểm bổ sung:

Rẻ hơn cho các nguồn dữ liệu đọc nhiều (read-heavy data sources).
Phù hợp với các yêu cầu dữ liệu đặc thù (unique data requirements) và môi trường được quy định (regulated environments).

Giá trị cho khách hàng và đối tác với Microsoft Fabric

Cả Mirroring và Open Mirroring đều thể hiện nguyên tắc cốt lõi của Microsoft Fabric: “một bản sao dữ liệu, nhiều trải nghiệm phân tích” (one copy of data, multiple analytical experiences). Trong thực tế, điều này sẽ được áp dụng như sau:

Đối với khách hàng

Thời gian khai thác thông tin chi tiết nhanh hơn (faster time to insight) với việc nhập dữ liệu thời gian thực (real-time data ingestion) từ nhiều nguồn dữ liệu (multiple data sources) mà không cần thiết lập ETL (no ETL setup required), cùng với cách tiếp cận không mã (no-code approach) trong Microsoft Fabric.
Giảm chi phí sở hữu tổng thể (lower TCO) bằng cách giảm sự phân tán cơ sở hạ tầng (infrastructure sprawl) và loại bỏ sự trùng lặp công cụ (tooling overlap).
Khả năng linh hoạt (agility) để hợp nhất dữ liệu nội bộ và bên ngoài (internal and external data) một cách liền mạch, đồng thời duy trì quản trị (governance) trong Microsoft Fabric.

Đối với đối tác

Tích hợp không ma sát (frictionless integrations) cho các hệ sinh thái dữ liệu đa đám mây và đa nhà cung cấp (cross-cloud and multi-vendor data ecosystems).
Đẩy nhanh sự đồng sáng tạo (accelerated co-innovation) với khách hàng áp dụng chiến lược đa đám mây (multi-cloud strategies).

Kết luận

Khi khối lượng, sự đa dạng và tốc độ của dữ liệu ngày càng tăng, mô hình sao chép và tải truyền thống (traditional copy-and-load model) không còn hiệu quả. Mirroring và Open Mirroring trong Microsoft Fabric cung cấp hai cách tiếp cận bổ sung: mang lại sự kiểm soát khi bạn cần hiệu suất và sự đơn giản, đồng thời cung cấp tính linh hoạt khi dữ liệu của bạn cần ở lại vị trí hiện tại.

Mirroring và Open Mirroring trong Microsoft Fabric không chỉ là một nâng cấp kỹ thuật, mà còn là một yếu tố chiến lược (strategic enabler). Bằng cách tiếp cận dữ liệu của bạn ở bất kỳ đâu, Microsoft Fabric giúp bạn hiện đại hóa phân tích (modernize analytics), giảm ma sát dữ liệu (data friction), và mở ra các mô hình kinh doanh mới (new business models)—tất cả trong khi đảm bảo sự tin cậy và quản trị ở quy mô lớn (trust and governance at scale).

Mirroring trong Microsoft Fabric