Các chức năng mới của Fabric Data Factory

·

·

,

Tài liệu bạn cung cấp là một bài đăng blog từ Microsoft Fabric Updates Blog, có tiêu đề “Fabric Data Factory: What’s New and Latest Roadmap,” được viết bởi Mark Kromer và đăng vào ngày 31 tháng 3 năm 2025. Microsoft công bố các cập nhật, tính năng mới và lộ trình phát triển cho Fabric Data Factory, một thành phần quan trọng trong nền tảng Microsoft Fabric, tập trung vào tích hợp dữ liệu và quản lý dữ liệu hiện đại.


1. Giới thiệu chung
  • Mục đích của Fabric Data Factory:
    Fabric Data Factory là một giải pháp giúp các tổ chức xử lý các tác vụ phức tạp liên quan đến dữ liệu như:
  • Thu thập dữ liệu (ingestion).
  • Áp dụng các biến đổi dữ liệu (data transformations).
  • Điều phối các hoạt động liên quan đến dữ liệu (orchestration).
    Nó hỗ trợ nhu cầu tích hợp dữ liệu của mọi tổ chức và cung cấp kiến trúc quản lý dữ liệu hiện đại.
  • Cảm ơn cộng đồng:
    Microsoft nhấn mạnh sự đóng góp của khách hàng và đối tác thông qua các ý tưởng và đề xuất, giúp định hình tương lai của tích hợp dữ liệu trong kỷ nguyên AI. Nhiều cải tiến và tính năng mới được phát triển dựa trên phản hồi này.
  • Tính năng nổi bật:
    Một trong những phản hồi từ người dùng là tích hợp Azure Key Vault (AKV) để quản lý bí mật (secrets) khi kết nối với các nguồn dữ liệu. Microsoft giới thiệu bản private preview (xem trước riêng tư) của tính năng hỗ trợ AKV trong Connections, cho phép sử dụng bí mật từ AKV để kết nối an toàn hơn.

2. Tích hợp dữ liệu cho doanh nghiệp
  • Hỗ trợ AKV trong Connections:
    Tính năng này đang ở giai đoạn “sneak peek” (xem trước sơ bộ), cho phép lưu trữ thông tin xác thực (credentials) trong AKV, tăng cường bảo mật khi kết nối với các nguồn dữ liệu.
  • Hỗ trợ tham số (Parameters):
  • Data Factory giới thiệu hỗ trợ tham số trong Dataflows và hoạt động Dataflow trong Pipelines, giúp xây dựng các quy trình tích hợp dữ liệu dựa trên siêu tham số (hyper-parameterized workflows).
  • Ví dụ: Tham số “Region” với giá trị “Eastern” được sử dụng trong Dataflow.
  • Tính năng DataOps cho doanh nghiệp:
  • CI/CD (Continuous Integration/Continuous Deployment): Đạt trạng thái general availability (GA) với khả năng sử dụng thư viện biến (variable library) để dễ dàng thay đổi giá trị giữa các môi trường và không gian làm việc (workspaces).
  • SPN Authentication: Hỗ trợ xác thực Service Principal (SPN) cho các API CRUD trong pipeline, tăng cường bảo mật cho ứng dụng API mà không cần token người dùng.
  • Virtual Network Data Gateway: Mở rộng hỗ trợ cho Data Pipelines, Copy Jobs và Mirroring, đảm bảo kết nối an toàn giữa các nguồn dữ liệu và dịch vụ đám mây mà không cần qua mạng công cộng.
  • Kết nối và di chuyển dữ liệu:
  • Fabric Data Factory hỗ trợ kết nối với hơn 170 nguồn dữ liệu và điểm đến dữ liệu.
  • Cho phép di chuyển dữ liệu giữa các mạng ảo (VNet), tại chỗ (on-premises), đa đám mây (multi-cloud) một cách an toàn và hiệu suất cao.

3. Cải tiến trong Copy Activity và Mirroring
  • Cải tiến Copy Activity trong Pipelines:
  • Sử dụng Bulk API khi kết nối với Dataverse.
  • Hỗ trợ đọc bảng delta trong Lakehouse, loại bỏ các bản ghi đã bị xóa bằng cách sử dụng thông tin từ deletion vectors.
  • Hỗ trợ ánh xạ cột (column mapping) và tự động tạo bảng với schema mới.
  • Cải thiện hiệu suất cho kết nối Salesforce.
  • Mirroring trong Fabric:
  • Mirroring là tính năng sao chép dữ liệu theo thời gian gần thực (near real-time) từ cơ sở dữ liệu hoặc kho dữ liệu hiện có vào OneLake.
  • Tính năng mới:
    • Hỗ trợ kết nối với cơ sở dữ liệu đằng sau tường lửa hoặc tại chỗ, bắt đầu với Azure SQL Database, và sắp tới là SnowflakeAzure SQL Managed Instance qua On-Premises Data Gateway và Virtual Network Data Gateway.
    • Giới thiệu Mirroring cho Azure Database for PostgreSQL Flexible Server.
    • General Availability cho Mirroring với CI/CD.
    • Hỗ trợ giám sát không gian làm việc (Workspace monitoring), sao chép schema nguồn, ánh xạ cột delta, và cải tiến giao diện người dùng.

4. Copy Job và Data Transformation
  • Copy Job:
  • Là giải pháp đơn giản để di chuyển dữ liệu mà không cần tạo Dataflows hay Pipelines.
  • Đạt trạng thái General Availability với các cải tiến:
    • Hỗ trợ hơn 20 kết nối mới.
    • API công khai và hỗ trợ CI/CD.
    • Hỗ trợ VNET Data Gateway.
    • Hỗ trợ Upsert cho SQL Database và Overwrite cho bảng Lakehouse trong Fabric.
    • Giám sát theo thời gian thực.
  • Dataflows Gen2:
  • Cung cấp khả năng biến đổi dữ liệu quy mô lớn với giao diện low-code.
  • Tính năng mới:
    • Incremental Refresh: Chỉ cập nhật dữ liệu đã thay đổi, cải thiện hiệu suất và giảm tải tài nguyên (đạt GA).
    • Cải thiện trải nghiệm CI/CD như nút “Save & Run”, đa nhiệm, và lịch làm mới dựa trên tần suất (ví dụ: mỗi N phút/giờ/ngày).
  • Pipelines:
  • Hỗ trợ thư viện biến (variable libraries) cho các mẫu dựa trên metadata.
  • OneLake Pipeline Trigger: Kích hoạt pipeline khi có sự kiện tệp trong OneLake (GA).
  • Fabric User Data Functions: Hỗ trợ mô-đun mã tùy chỉnh trong pipeline (public preview).
  • SSIS Integration: Hỗ trợ di chuyển gói SSIS vào Fabric và lưu trữ trong OneLake (private preview).
  • Apache Airflow: Hỗ trợ job Airflow trong Fabric Data Factory (GA).
  • Tăng giới hạn lên 120 hoạt động trong một pipeline.
  • AI-powered Development:
  • Copilot for Data Factory: Đạt trạng thái GA, cho phép xây dựng Dataflows và Pipelines bằng văn bản tự nhiên.

5. Nâng cấp lên Fabric Data Factory
  • Hành trình nâng cấp:
  • Microsoft cung cấp lộ trình nâng cấp từ Azure Data Factory (ADF), Synapse Pipelines, và Power BI Dataflows sang Fabric Data Factory.
  • Tài liệu và video hướng dẫn đã được công bố để hỗ trợ người dùng ADF gắn kết các factory vào Fabric workspace.
  • Dataflow Gen1 sang Gen2: Tính năng “Save As” giúp dễ dàng chuyển đổi từ Dataflow Gen1 sang Gen2 với các cải tiến như Fast Copy, Copilot, và VNET Gateway.
  • Tóm tắt:
  • Microsoft cảm ơn phản hồi từ cộng đồng và khuyến khích người dùng tiếp tục chia sẻ ý kiến qua Microsoft Fabric Ideas site.


Tóm tắt ý chính

Fabric Data Factory đang được Microsoft phát triển mạnh mẽ với các tính năng:

  1. Bảo mật: Tích hợp AKV, VNET Gateway, SPN auth.
  2. Hiệu suất: Incremental Refresh, Bulk API, cải tiến kết nối.
  3. Tính linh hoạt: Hỗ trợ 170+ nguồn dữ liệu, tham số, CI/CD, Apache Airflow.
  4. AI: Copilot hỗ trợ phát triển bằng ngôn ngữ tự nhiên.
  5. Sao chép dữ liệu: Mirroring gần thời gian thực với nhiều cải tiến.
  6. Nâng cấp: Đường dẫn rõ ràng từ ADF, Synapse, và Power BI Dataflows.

Tài liệu này là một bản cập nhật toàn diện, nhắm đến các kỹ sư dữ liệu, quản trị viên CNTT và doanh nghiệp muốn tận dụng Fabric Data Factory cho nhu cầu tích hợp dữ liệu hiện đại.

Xem chi tiết tài liệu của Microsoft tại đây


Leave a Reply

Your email address will not be published. Required fields are marked *