Các chức năng mới của Mirroring trong Microsoft Fabric

Bản cập nhật từ Microsoft Fabric, được đăng tải vào ngày 31 tháng 3 năm 2025 bởi Wilson Lee, với tiêu đề “Mirroring in Fabric – What’s new”. Đây là một bài viết chi tiết giới thiệu các tính năng mới và cải tiến liên quan đến tính năng Mirroring (Phản chiếu) trong Microsoft Fabric – một nền tảng phân tích hợp nhất của Microsoft.

1. Giới thiệu về Mirroring trong Microsoft Fabric

Mirroring là gì?
- Đây là một tính năng mạnh mẽ trong Microsoft Fabric, cho phép phản chiếu (replicate) dữ liệu từ bất kỳ cơ sở dữ liệu hoặc kho dữ liệu nào vào OneLake (một hồ dữ liệu trung tâm trong Fabric) một cách liên tục.
- Sau khi quá trình phản chiếu bắt đầu, dữ liệu được đồng bộ gần như theo thời gian thực (near real-time) trong OneLake, giúp dữ liệu sẵn sàng sử dụng trên toàn bộ hệ sinh thái Fabric để khai thác tiềm năng dữ liệu.
Mục tiêu của nhóm phát triển:
- Đội ngũ Mirroring đang nỗ lực cải thiện tính năng này dựa trên phản hồi từ người dùng, nhằm hỗ trợ việc triển khai Mirroring trong các workload sản xuất một cách dễ dàng.

2. Các tính năng mới của Mirroring

Dưới đây là các cập nhật chính được đề cập trong tài liệu:

a. Hỗ trợ cơ sở dữ liệu phía sau tường lửa (Firewall)

Ý nghĩa:
- Trước đây, việc kết nối tới các cơ sở dữ liệu quan trọng nằm sau tường lửa hoặc tại chỗ (on-premises) gặp nhiều thách thức. Giờ đây, Mirroring đã khắc phục vấn đề này.
Hỗ trợ hiện tại:
- Azure SQL Database và Snowflake đã được hỗ trợ kết nối qua tường lửa.
- Azure SQL Managed Instance sẽ sớm được hỗ trợ thông qua On-Premises Data Gateway và Virtual Network Data Gateway.
Lợi ích: Đảm bảo việc sao chép dữ liệu an toàn và hiệu quả từ các nguồn nhạy cảm.

b. Hỗ trợ Azure Database for PostgreSQL Flexible Server

Mirroring đã bổ sung Azure Database for PostgreSQL Flexible Server như một tùy chọn mới cho việc phản chiếu cơ sở dữ liệu, mở rộng khả năng tích hợp với các nguồn dữ liệu phổ biến.

c. Tích hợp CI/CD và giám sát Workspace

CI/CD (Continuous Integration/Continuous Deployment):
- Mirroring giờ đây hỗ trợ quy trình CI/CD, giúp tự động hóa và quản lý việc triển khai trong môi trường doanh nghiệp.
Workspace Monitoring:
- Tích hợp với tính năng giám sát Workspace, cho phép theo dõi hoạt động của các cơ sở dữ liệu được phản chiếu dễ dàng hơn.

d. Theo dõi log vận hành trong KQL Database

Người dùng có thể giám sát các log vận hành của cơ sở dữ liệu được phản chiếu thông qua KQL Database (Kusto Query Language), cung cấp khả năng phân tích sâu hơn về trạng thái hoạt động.

e. Hỗ trợ sao chép schema nguồn

Tính năng:
- Mirroring giờ đây giữ nguyên cấu trúc schema của cơ sở dữ liệu nguồn trong cơ sở dữ liệu được phản chiếu.
Lợi ích:
- Đảm bảo dữ liệu được tổ chức nhất quán trên các dịch vụ khác nhau (SQL Analytics Endpoint, Spark Notebooks, semantic models, v.v.), giúp sử dụng dữ liệu dễ dàng hơn.

f. Hỗ trợ Delta Column Mapping

Ý nghĩa:
- Hỗ trợ ánh xạ cột trong bảng Delta, cho phép sao chép các bảng có tên cột chứa ký tự đặc biệt (như khoảng trắng, ;, \n, \t, =, v.v.).
Ứng dụng:
- Tăng tính linh hoạt khi làm việc với các nguồn dữ liệu có định dạng cột phức tạp.

g. Cải tiến Open Mirroring

Open Mirroring là gì?
- Đây là một tính năng mở rộng của Mirroring dựa trên định dạng bảng Delta Lake mở, cho phép các ứng dụng và nhà cung cấp dữ liệu (ISVs) ghi dữ liệu thay đổi trực tiếp vào cơ sở dữ liệu phản chiếu trong Fabric thông qua API công khai.
Cải tiến mới:
- Giao diện người dùng (UI) được nâng cấp, hỗ trợ tạo cơ sở dữ liệu phản chiếu và tải lên/t kéo thả các tệp Parquet và CSV.
- Giúp việc bắt đầu với Open Mirroring trở nên dễ dàng hơn.

h. Cải tiến Mirroring cho Azure SQL Database

Hỗ trợ bảng không có khóa chính (Primary Key):
- Giờ đây, người dùng có thể phản chiếu các bảng không có khóa chính, tăng tính linh hoạt.
Giảm quyền SQL cần thiết:
- Quá trình thiết lập được đơn giản hóa với nguyên tắc quyền tối thiểu (least privilege), tăng cường bảo mật và giảm độ phức tạp.

i. Mở rộng vùng hỗ trợ

Mirroring hiện đã có mặt tại 3 khu vực mới: Central US, Poland Central, và Italy North, đáp ứng nhu cầu ngày càng tăng của người dùng toàn cầu.

j. Miễn phí compute và lưu trữ cho Mirroring

Lưu trữ miễn phí:
- OneLake cung cấp dung lượng lưu trữ miễn phí cho dữ liệu phản chiếu, dựa trên kích thước capacity (CU) đã mua. Ví dụ: Với F64 capacity, bạn nhận được 64TB lưu trữ miễn phí cho Mirroring.
- Nếu vượt quá giới hạn hoặc capacity bị tạm dừng, lưu trữ sẽ tính phí theo giá thông thường.
Compute miễn phí:
- Compute dùng để sao chép dữ liệu vào OneLake không tiêu tốn capacity. Tuy nhiên, các yêu cầu truy vấn dữ liệu (qua SQL, Power BI, Spark) sẽ tính phí theo mức thông thường.

3. Lộ trình phát triển (Roadmap)

Đã công bố:
Mirroring cho Azure Database for PostgreSQL Flexible Server hiện đã chính thức khả dụng (Generally Available).
Sắp tới:
- Hỗ trợ thêm nhiều nguồn dữ liệu như Oracle, Cosmos DB, và các cải tiến tính năng khác dựa trên phản hồi người dùng.

6. Tổng quan về Microsoft Fabric

Microsoft Fabric là một giải pháp phân tích hợp nhất, tích hợp tất cả dữ liệu vào một nơi (OneLake), với các trải nghiệm phân tích (SQL, Power BI, Spark, v.v.) hoạt động liền mạch trên nền tảng SaaS.

Tóm tắt

Tài liệu này tập trung vào việc giới thiệu các cải tiến mới nhất của Mirroring trong Microsoft Fabric, từ hỗ trợ kết nối bảo mật, mở rộng nguồn dữ liệu, đến cải thiện trải nghiệm người dùng và chính sách giá miễn phí. Đây là một phần trong nỗ lực của Microsoft để biến Fabric thành nền tảng phân tích dữ liệu hàng đầu, đáp ứng nhu cầu doanh nghiệp trong việc quản lý và khai thác dữ liệu hiệu quả.