Search for answers or browse our knowledge base.
Cách chuyển dữ liệu vào Fabric bằng Copy của Data Factory
Cách nhập dữ liệu vào Fabric bằng hoạt động sao chép Azure Data Factory
Bài viết • 16/09/2024
Kết nối hồ dữ liệu Microsoft Fabric (Microsoft Fabric Lakehouse connector) trong Azure Data Factory (ADF) và Azure Synapse Analytics cho phép thực hiện cả thao tác đọc (read) và ghi (write) vào Microsoft Fabric Lakehouse (cả cho bảng và tệp). Kết nối này cho phép bạn sử dụng các đường ống (Pipelines) và luồng dữ liệu ánh xạ (Mapping Data Flows) hiện có của ADF và Synapse để tương tác với các hồ dữ liệu Fabric (Fabric Lakehouses). Bài viết này giúp bạn cấu hình Microsoft Fabric để cho phép xác thực chủ thể dịch vụ (service principal authentication) và sau đó thể hiện kết nối hồ dữ liệu (Lakehouse Connector) cho cả việc đọc và ghi vào Microsoft Fabric Lakehouse.
Để biết thêm thông tin về Microsoft Fabric Lakehouse, xem What is a lakehouse?
Kết nối hồ dữ liệu Azure Data Factory (Azure Data Factory Lakehouse Connector)
Một kết nối dịch vụ liên kết hồ dữ liệu mới (Lakehouse linked service connector) và hai tập dữ liệu mới (Datasets) hiện đã có sẵn cho các khách hàng muốn bắt đầu đọc (read) và ghi (write) vào Microsoft Fabric Lakehouse. Để có hướng dẫn đầy đủ về kết nối hồ dữ liệu, tham khảo Copy and transform data in Microsoft Fabric Lakehouse Files (Preview).
Xác thực (Authentication)
Dịch vụ liên kết Azure Data Factory (Azure Data Factory linked service)
Kết nối hồ dữ liệu Microsoft Fabric (Microsoft Fabric Lakehouse connector) yêu cầu một chủ thể dịch vụ (service principal – SPN)/đăng ký ứng dụng (app registration) để xác thực (authentication). Để bắt đầu, bạn phải tạo một SPN mới hoặc sử dụng một SPN hiện có. Microsoft Fabric cho phép truy cập SPN vào các nhóm bảo mật cụ thể (specific security groups) hoặc cho toàn bộ tổ chức (entire organization). Nếu tổ chức của bạn sử dụng tùy chọn nhóm bảo mật cụ thể, thì SPN được sử dụng trong kết nối hồ dữ liệu phải thuộc về một nhóm bảo mật được thêm vào danh sách trắng (allowlist).
Lưu ý: Không cần quyền API Power BI (Power BI API permissions) được ủy quyền (Delegated).
Truy cập vào API Power BI (Access to Power BI APIs)
Từ cổng quản trị Power BI (Power BI admin portal), quản trị viên tenant Power BI (Power BI tenant admin) phải bật tùy chọn Cho phép các chủ thể dịch vụ sử dụng API Power BI (Allow service principals to use Power BI APIs). Nhóm bảo mật phải được chỉ định trong cài đặt Cho phép các chủ thể dịch vụ sử dụng API Power BI hoặc bạn có thể bật cho toàn bộ tổ chức.
Để có hướng dẫn đầy đủ, tham khảo Embed Power BI content in an embedded analytics application with service principal and an application secret.
Lưu ý: Khi gán Nhóm Bảo mật (Security Group) vào Không gian làm việc (Workspace), có thể có độ trễ để chủ thể dịch vụ được cấp quyền truy cập vào Không gian làm việc do bộ đệm quyền (permissions caching) trong Azure. Nếu bạn cần truy cập ngay lập tức, bạn có thể sử dụng PowerShell để buộc làm mới quyền của người dùng (force a refresh of the user’s permissions). Để làm như vậy, mở PowerShell với quyền Quản trị viên (Administrator), sau đó chạy các lệnh sau:
Install-Module -Name MicrosoftPowerBIMgmt Connect-PowerBIServiceAccount -Tenant '' -ServicePrincipal -Credential (Get-Credential) Get-PowerBIWorkspace Invoke-PowerBIRestMethod -URL 'https://api.powerbi.com/v1.0/myorg/RefreshUserPermissions' -Method Post -Body ' ' Get-PowerBIWorkspace
Truy cập không gian làm việc (Workspace access)
Sau khi Nhóm Bảo mật (Security Group) được thêm, Nhóm Bảo mật hoặc chủ thể dịch vụ (service principal) cũng phải được thêm vào mỗi Không gian làm việc (Workspace) với vai trò Thành viên (Member), Người đóng góp (Contributor) hoặc Quản trị viên (Admin). Tham khảo Give users access to workspaces để biết thêm chi tiết.
Thể hiện: Thiết lập xác thực (Demo: Set up authentication)
Chủ thể dịch vụ đăng ký ứng dụng (App registration service principal)
Tạo hoặc sử dụng một chủ thể dịch vụ đăng ký ứng dụng (app registration service principal – SPN) hiện có. Làm theo các bước trong Register an application with Microsoft Entra ID and create a service principal.
Lưu ý: Bạn không cần gán một URI chuyển hướng (Redirect URI).
Tên hiển thị (Display name): spn-fabricuser
ID ứng dụng (client) (Application (client) ID): [Ẩn để bảo mật]
Cổng quản trị (Admin portal)
Cài đặt tenant (Tenant settings)
- Số liệu sử dụng (Usage metrics)
- Người dùng (Users)
- Premium Per User
- Nhật ký kiểm tra (Audit logs)
- Tên miền (Domains)
- Cài đặt dung lượng (Capacity settings)
- Tóm tắt làm mới (Refresh summary)
- Mã nhúng (Embed Codes)
- Hình ảnh tổ chức (Organizational visuals)
- Kết nối Azure (Azure connections)
- Không gian làm việc (Workspaces)
- Thương hiệu tùy chỉnh (Custom branding)
- Số liệu bảo vệ (Protection metrics)
- Nội dung nổi bật (Featured content)
Có các cài đặt tenant mới hoặc đã được cập nhật. Mở rộng để xem xét các thay đổi.
Cài đặt nhà phát triển (Developer settings)
- Nhúng nội dung trong ứng dụng (Embed content in apps)
Đã bật cho toàn bộ tổ chức (Enabled for the entire organization) - Cho phép các chủ thể dịch vụ sử dụng API Power BI (Allow service principals to use Power BI APIs)
Đã bật cho một phần của tổ chức (Enabled for a subset of the organization)
Các ứng dụng web được đăng ký trong Azure Active Directory (Azure AD) sẽ sử dụng một chủ thể dịch vụ được gán (assigned service principal) để truy cập API Power BI mà không cần người dùng đăng nhập (signed in user). Để cho phép một ứng dụng sử dụng xác thực chủ thể dịch vụ (service principal authentication), chủ thể dịch vụ của nó phải được bao gồm trong một nhóm bảo mật được phép (allowed security group). Learn More
Đã bật (Enabled)
Các chủ thể dịch vụ (service principals) có thể sử dụng API để truy cập các tính năng cấp tenant (tenant-level features) được kiểm soát bởi quản trị viên dịch vụ Power BI (Power BI service admins) và được bật cho toàn bộ tổ chức hoặc cho các nhóm bảo mật mà chúng được bao gồm. Bạn có thể kiểm soát truy cập của các chủ thể dịch vụ bằng cách tạo các nhóm bảo mật được chỉ định (decided security groups) và sử dụng các nhóm này trong bất kỳ cài đặt cấp tenant Power BI nào (Power BI tenant level-settings). Learn More
Áp dụng cho:
- Toàn bộ tổ chức (The entire organization)
- Các nhóm bảo mật cụ thể (Specific security groups)
group-Fabric × Nhập các nhóm bảo mật (Enter security groups) - Ngoại trừ các nhóm bảo mật cụ thể (Except specific security groups)
Áp dụng (Apply) | Hủy (Cancel)
Lưu ý: Vui lòng đảm bảo cài đặt Người dùng có thể truy cập dữ liệu được lưu trữ trong OneLake với các ứng dụng bên ngoài Fabric (Users can access data stored in OneLake with apps external to Fabric) được bật. Tham khảo Allow apps running outside of Fabric to access data via OneLake.
Không gian làm việc (Workspace)
Thêm SPN hoặc nhóm bảo mật (service group) vào không gian làm việc với quyền truy cập Thành viên (Member), Người đóng góp (Contributor) hoặc Quản trị viên (Admin).
Azure Data Factory: Dịch vụ liên kết (Linked service)
Từ Azure Data Factory, tạo một dịch vụ liên kết hồ dữ liệu Microsoft Fabric mới (Microsoft Fabric Lakehouse linked service).
Lưu ý: Để tìm ID không gian làm việc (Workspace ID) và ID hồ dữ liệu (Lakehouse ID), điều hướng đến hồ dữ liệu Fabric của bạn và xác định nó từ URL. Ví dụ: https://…/groups/<Workspace ID>/lakehouses/<Lakehouse ID>
Azure Data Factory: Tập dữ liệu (Dataset)
Tạo một tập dữ liệu (Dataset) tham chiếu đến dịch vụ liên kết hồ dữ liệu Microsoft Fabric (Microsoft Fabric Lakehouse linked service).
Lưu ý: Chọn Không (None) cho tùy chọn nhập lược đồ (Import schema) nếu bảng chưa tồn tại và bạn đang chỉ định tên bảng mới theo cách thủ công.
Tập dữ liệu mới (New dataset)
Trong các hoạt động đường ống (pipeline activities) và luồng dữ liệu (data flows), tham chiếu một tập dữ liệu (dataset) để chỉ định vị trí và cấu trúc của dữ liệu của bạn trong một kho dữ liệu (data store). Learn more
Chọn một kho dữ liệu (Select a data store)
Hồ dữ liệu (Lakehouse)
- Tất cả (All)
- Cơ sở dữ liệu Azure (Azure Database)
- Tệp (File)
- Giao thức chung (Generic protocol)
- NoSQL
- Dịch vụ và ứng dụng (Services and apps)
- Microsoft Fabric
- Microsoft Fabric Lakehouse Files
- Microsoft Fabric Lakehouse Table
Tiếp tục (Continue) | Hủy (Cancel)
Thiết lập thuộc tính (Set properties)
- Tên (Name): Fabric_Lakehouse_Table_Country
- Dịch vụ liên kết (Linked service): Lakehouse_FabricUser
- Tên bảng (Table name): Country
- Nhập thủ công (Enter manually)
- Nhập lược đồ (Import schema):
- Từ kết nối/kho (From connection/store)
- Không (None)
OK | Quay lại (Back) | Hủy (Cancel)
Thể hiện: Ghi vào bảng hồ dữ liệu Fabric bằng đường ống ADF (Demo: Write to a Fabric Lakehouse table with an ADF pipeline)
Nguồn (Source)
Tạo một đường ống mới (new pipeline) và thêm một hoạt động sao chép (Copy activity) vào khung vẽ đường ống (pipeline canvas). Từ tab Nguồn (Source tab) của hoạt động sao chép, chọn một tập dữ liệu nguồn (source dataset) mà bạn muốn di chuyển vào bảng hồ dữ liệu (Lakehouse table). Trong ví dụ này, chúng tôi đang tham chiếu một tệp .csv từ tài khoản Azure Data Lake Storage (ADLS) Gen2.
Đích (Sink)
Điều hướng đến tab Đích (Sink tab) của hoạt động sao chép và chọn tập dữ liệu hồ dữ liệu Fabric (Fabric Lakehouse dataset) đã được tạo trước đó.
Chạy đường ống (Run the pipeline)
Chạy đường ống (pipeline) để di chuyển dữ liệu .csv vào bảng hồ dữ liệu Fabric (Fabric Lakehouse table).
Chi tiết (Details)
Làm mới (Refresh)
Để biết thêm chi tiết về hiệu suất sao chép, xem copy performance details.
ID chạy hoạt động (Activity run id): 0000aasa-11bb-ctcc-dd22-eeeee333333
Azure Data Lake Storage Gen2
Khu vực (Region): Đông Mỹ (East US)
Microsoft Fabric Lakehouse
- Dữ liệu đã đọc (Data read): 7.02 KB
- Tệp đã đọc (Files read): 1
- Hàng đã đọc (Rows read): 208
- Kết nối đỉnh (Peak connections): 2
- Dữ liệu đã ghi (Data written): 7.5 KB
- Tệp đã ghi (Files written): 1
- Hàng đã ghi (Rows written): 208
- Kết nối đỉnh (Peak connections): 1
Thời gian sao chép (Copy duration): 00:00:21
Thông lượng (Throughput): 585 bytes/s
Azure Data Lake Storage Gen2 → Microsoft Fabric Lakehouse
- Thời gian bắt đầu (Start time): 16/01/2024, 2:48:53 PM
- DIU đã sử dụng (Used DIUs): 4
- Sao chép song song đã sử dụng (Used parallel copies): 1
- Thời gian (Duration): 00:00:21
- Chi tiết (Details):
- Hàng đợi (Queue): 00:00:07
- Chuyển giao (Transfer): 00:00:00
Thể hiện: Đọc từ bảng hồ dữ liệu Fabric bằng đường ống ADF (Demo: Read from a Fabric Lakehouse table with an ADF pipeline)
Đích (Sink)
Điều hướng đến tab Đích (Sink tab) của hoạt động sao chép và chọn tập dữ liệu đích (destination dataset). Trong ví dụ này, đích là Azure Data Lake Storage (Gen2), dưới dạng tệp Parquet (Parquet file).
Chạy đường ống (Run the pipeline)
Chạy đường ống (pipeline) để di chuyển dữ liệu từ bảng hồ dữ liệu Fabric (Fabric Lakehouse table) vào tệp Parquet trong ADLS Gen2.
Chi tiết (Details)
Làm mới (Refresh)
Để biết thêm chi tiết về hiệu suất sao chép, xem copy performance details.
ID chạy hoạt động (Activity run id): 0000aaa-11bb-cccc-dd22-eeeeee333333
Microsoft Fabric Lakehouse
[Nội dung bị cắt ngắn trong tài liệu gốc, không có thêm chi tiết hiệu suất]
miratek-demo
Vùng chứa (Container)
Tìm kiếm (Search)
- Tổng quan (Overview)
- Chẩn đoán và giải quyết vấn đề (Diagnose and solve problems)
- Kiểm soát truy cập (Access Control – IAM)
- Cài đặt (Settings)
- Token truy cập chia sẻ (Shared access tokens)
- Chính sách truy cập (Access policy)
- Thuộc tính (Properties)
- Siêu dữ liệu (Metadata)
Hình ảnh: Giao diện với các nút Tải lên (Upload), Thay đổi cấp độ truy cập (Change access level), Làm mới (Refresh), Xóa (Delete), Thay đổi cấp độ (Change tier)
Phương thức xác thực (Authentication method): Khóa truy cập (Access key) (Chuyển sang tài khoản người dùng Microsoft Entra – Switch to Microsoft Entra user account)
Vị trí (Location): miratek-demo
Thêm bộ lọc (Add filter)
Tên (Name): d000318f-e342-4376-94c4-55bdbb669483.parquet
Tóm tắt (Summary)
Trong phần này, chúng tôi đã khám phá các yêu cầu cho Kết nối hồ dữ liệu (Lakehouse Connector) sử dụng xác thực chủ thể dịch vụ (service principal authentication) vào Microsoft Fabric Lakehouse, sau đó đã thực hiện một ví dụ cho cả việc đọc (reading) và ghi (writing) vào hồ dữ liệu từ một đường ống Azure Data Factory (Azure Data Factory pipeline). Kết nối và khả năng này cũng có sẵn trong Luồng dữ liệu ánh xạ Azure Data Factory (Azure Data Factory Mapping Data Flows), Azure Synapse Analytics và Luồng dữ liệu ánh xạ Azure Synapse Analytics (Azure Synapse Analytics Mapping Data Flows).