Hướng dẫn Data Factory


Hướng dẫn này giúp bạn đẩy nhanh quá trình đánh giá Data Factory trong Microsoft Fabric bằng cách cung cấp hướng dẫn từng bước cho một kịch bản tích hợp dữ liệu đầy đủ trong vòng một giờ. Sau khi hoàn thành hướng dẫn, bạn sẽ hiểu được giá trị và các tính năng chính của Data Factory, đồng thời biết cách thực hiện một kịch bản tích hợp dữ liệu từ đầu đến cuối phổ biến.

Tổng quan: Tại sao chọn Data Factory trong Microsoft Fabric? #

Phần này giúp bạn hiểu vai trò của Fabric nói chung và vai trò của Data Factory trong đó.

Hiểu giá trị của Microsoft Fabric

Microsoft Fabric cung cấp một nền tảng toàn diện cho mọi nhu cầu phân tích của doanh nghiệp. Nó bao gồm toàn bộ các dịch vụ như di chuyển dữ liệu, hồ dữ liệu (data lake), kỹ thuật dữ liệu, tích hợp dữ liệu, khoa học dữ liệu, phân tích thời gian thực và trí tuệ kinh doanh. Với Fabric, bạn không cần phải ghép nối các dịch vụ từ nhiều nhà cung cấp khác nhau. Thay vào đó, người dùng được trải nghiệm một sản phẩm tích hợp toàn diện, dễ hiểu, dễ tiếp cận, dễ tạo và vận hành.

Hiểu giá trị của Data Factory trong Microsoft Fabric

Data Factory trong Fabric kết hợp sự dễ sử dụng của Power Query với quy mô và sức mạnh của Azure Data Factory. Nó mang đến những điểm mạnh của cả hai sản phẩm trong một trải nghiệm thống nhất. Mục tiêu là đảm bảo tích hợp dữ liệu trong Data Factory hoạt động tốt cho cả những người phát triển dữ liệu không chuyên (citizen developers) và chuyên nghiệp. Data Factory cung cấp trải nghiệm chuẩn bị và chuyển đổi dữ liệu không cần mã (low-code), hỗ trợ AI, chuyển đổi dữ liệu quy mô petabyte, hàng trăm kết nối với khả năng liên kết hybrid, đa đám mây. Purview cung cấp khả năng quản trị, cùng với các cam kết DataOps ở quy mô doanh nghiệp, tích hợp CI/CD, quản lý vòng đời ứng dụng và giám sát.

Giới thiệu – Hiểu ba tính năng chính của Data Factory #
  • Thu thập dữ liệu (Data Ingestion): Hoạt động Sao chép (Copy activity) trong các pipeline cho phép bạn di chuyển dữ liệu quy mô petabyte từ hàng trăm nguồn dữ liệu vào hồ dữ liệu (Lakehouse) để xử lý thêm.
  • Chuyển đổi và chuẩn bị dữ liệu: Dataflow Gen2 cung cấp giao diện không cần mã để chuyển đổi dữ liệu với hơn 300 phép biến đổi, cho phép tải kết quả đã chuyển đổi vào nhiều đích đến như cơ sở dữ liệu Azure SQL, Lakehouse, v.v.
  • Tự động hóa luồng tích hợp từ đầu đến cuối: Các pipeline cung cấp khả năng điều phối các hoạt động bao gồm Sao chép, Dataflow, Notebook, và hơn thế nữa. Điều này cho phép bạn quản lý tất cả các hoạt động ở một nơi. Các hoạt động trong pipeline có thể được liên kết để thực hiện tuần tự hoặc hoạt động độc lập song song.

Trong tình huống tích hợp dữ liệu từ đầu đến cuối này, bạn sẽ học:

  • Cách thu thập dữ liệu bằng trợ lý sao chép trong pipeline.
  • Cách chuyển đổi dữ liệu bằng Dataflow với trải nghiệm không cần mã hoặc tự viết mã để xử lý dữ liệu bằng hoạt động Script hoặc Notebook.
  • Cách tự động hóa toàn bộ luồng tích hợp dữ liệu từ đầu đến cuối bằng pipeline với các kích hoạt và hoạt động điều khiển linh hoạt.
Kiến trúc #

Trong 50 phút tới, bạn sẽ được giao nhiệm vụ hoàn thành một kịch bản tích hợp dữ liệu từ đầu đến cuối. Điều này bao gồm thu thập dữ liệu thô từ một kho lưu trữ nguồn vào bảng Bronze của Lakehouse, xử lý tất cả dữ liệu, chuyển nó sang bảng Gold của Lakehouse, gửi email thông báo khi tất cả công việc hoàn tất, và cuối cùng, thiết lập toàn bộ luồng để chạy theo lịch trình.

Kịch bản được chia thành ba mô-đun:

  • Module 1: Tạo một pipeline với Data Factory để thu thập dữ liệu thô từ Blob storage vào bảng Bronze trong Lakehouse.
  • Module 2: Chuyển đổi dữ liệu bằng Dataflow trong Data Factory để xử lý dữ liệu thô từ bảng Bronze và chuyển nó sang bảng Gold trong Lakehouse.
  • Module 3: Hoàn thành hành trình tích hợp dữ liệu đầu tiên bằng cách gửi email thông báo khi tất cả công việc hoàn tất, và thiết lập toàn bộ luồng để chạy theo lịch trình.

Bạn sẽ sử dụng tập dữ liệu mẫu NYC-Taxi làm nguồn dữ liệu cho hướng dẫn này. Sau khi hoàn thành, bạn sẽ có thể phân tích các khoản chiết khấu hàng ngày trên giá vé taxi trong một khoảng thời gian cụ thể bằng Data Factory trong Microsoft Fabric.

Nội dung liên quan #

Trong phần giới thiệu về hướng dẫn tích hợp dữ liệu từ đầu đến cuối với Data Factory trong Microsoft Fabric, bạn đã học:
✔ Giá trị và vai trò của Microsoft Fabric
✔ Giá trị và vai trò của Data Factory trong Fabric
✔ Các tính năng chính của Data Factory
✔ Những gì bạn sẽ học trong hướng dẫn này

Hãy tiếp tục sang phần tiếp theo để tạo pipeline dữ liệu của bạn.

Module 1: Tạo một pipeline với Data Factory


What are your feelings
Updated on 15 April 2025