Cập nhật tính năng mới của Data Warehouse trong Microsoft Fabric – tháng 2/2025

Microsoft Fabric vừa công bố bản cập nhật tháng 2/2025, mang đến nhiều tính năng mới cho Data Warehouse, giúp tối ưu hóa việc quản lý và phân tích dữ liệu. Dưới đây là các điểm nổi bật được giải thích chi tiết:
- Hỗ Trợ Collate Clause (Chính thức)
Tính năng Collate Clause nay đã chính thức ra mắt trên Data Warehouse, cho phép người dùng tùy chỉnh cách sắp xếp và so sánh dữ liệu dựa trên các chuẩn định dạng ký tự hoặc ngôn ngữ khác nhau. Ví dụ, nếu doanh nghiệp của bạn hoạt động ở nhiều quốc gia với các ngôn ngữ như tiếng Việt, tiếng Anh, hay tiếng Pháp, bạn có thể dùng Collate Clause để đảm bảo dữ liệu được sắp xếp đúng theo quy tắc ngôn ngữ tương ứng (ví dụ: “a, ă, â” trong tiếng Việt). Điều này đặc biệt hữu ích khi làm việc với dữ liệu đa nguồn, chẳng hạn như tích hợp thông tin khách hàng từ các hệ thống CRM khác nhau, giúp giảm thiểu sai sót trong quá trình phân tích và báo cáo. Tính năng này tăng cường độ chính xác và tính nhất quán khi xử lý dữ liệu đa dạng. - Copilot Cho Data Warehouse Chat (Preview)
Microsoft đã tích hợp Copilot vào Data Warehouse, mang đến một giao diện trò chuyện thông minh giúp người dùng tương tác với dữ liệu dễ dàng hơn. Với Copilot, bạn có thể đặt câu hỏi bằng ngôn ngữ tự nhiên, ví dụ: “Doanh thu tháng này tăng bao nhiêu so với tháng trước?” hoặc “Lọc danh sách khách hàng mua hàng trên 10 triệu trong quý 1”. Copilot sẽ tự động phân tích dữ liệu và trả lời mà không cần bạn phải viết truy vấn SQL phức tạp. Tính năng này rất phù hợp cho những người dùng không chuyên về kỹ thuật, như các nhà quản lý hoặc chuyên viên kinh doanh, giúp họ nhanh chóng tiếp cận thông tin mà không cần phụ thuộc vào đội ngũ IT. Trong giai đoạn Preview, Copilot vẫn đang được cải thiện để xử lý các câu hỏi phức tạp hơn, nhưng đây đã là một bước tiến lớn trong việc dân chủ hóa phân tích dữ liệu. - Duyệt Tệp Với OPENROWSET (Preview)
Tính năng OPENROWSET cho phép người dùng truy cập và xem trước các tệp dữ liệu định dạng Parquet hoặc CSV trực tiếp từ Azure Data Lake hoặc Azure Blob Storage mà không cần tải toàn bộ dữ liệu vào Data Warehouse ngay lập tức. Ví dụ, nếu bạn có một tệp CSV chứa dữ liệu giao dịch hàng triệu dòng, bạn có thể dùng OPENROWSET để kiểm tra một phần dữ liệu, như xem 100 dòng đầu tiên hoặc kiểm tra cấu trúc cột, trước khi quyết định nhập dữ liệu vào kho. Điều này giúp tiết kiệm thời gian và tài nguyên, đặc biệt khi làm việc với dữ liệu lớn, đồng thời giảm rủi ro nhập nhầm dữ liệu không cần thiết. Tính năng này rất hữu ích cho các nhóm phân tích dữ liệu lớn, chẳng hạn như trong ngành bán lẻ hoặc tài chính, nơi dữ liệu thường được lưu trữ trên các nền tảng đám mây. - Tải Dữ Liệu Với BULK INSERT (Preview)
BULK INSERT là một công cụ mạnh mẽ hỗ trợ tải dữ liệu hàng loạt từ các tệp Parquet hoặc CSV vào Data Warehouse một cách nhanh chóng và hiệu quả. Ví dụ, nếu bạn cần nhập dữ liệu lịch sử giao dịch từ một tệp CSV 10GB vào Data Warehouse để phân tích, BULK INSERT sẽ giúp bạn thực hiện việc này trong thời gian ngắn nhờ khả năng xử lý hàng loạt. Tính năng này tương tự COPY INTO nhưng được tối ưu hóa hơn cho các tác vụ nhập dữ liệu lớn, với cú pháp đơn giản và dễ sử dụng. Điều này đặc biệt hữu ích trong các dự án cần đồng bộ dữ liệu thường xuyên, như cập nhật dữ liệu bán hàng hàng ngày hoặc nhập dữ liệu từ các hệ thống bên ngoài vào kho dữ liệu để báo cáo. Trong giai đoạn Preview, Microsoft đang tiếp tục cải thiện tốc độ và khả năng xử lý lỗi của tính năng này. - Hỗ Trợ Nested Common Table Expression (Chính thức)
Nested Common Table Expression (CTE) nay đã chính thức có mặt trên Data Warehouse, cho phép người dùng viết các truy vấn SQL phức tạp một cách dễ dàng và có tổ chức hơn. CTE cho phép bạn tạo các bảng tạm thời “lồng nhau” trong một truy vấn, giúp chia nhỏ các bước xử lý dữ liệu phức tạp. Ví dụ, nếu bạn cần phân tích dữ liệu bán hàng theo nhiều cấp độ (theo khu vực, rồi theo sản phẩm, sau đó theo thời gian), bạn có thể dùng Nested CTE để tách biệt từng bước, từ việc lọc dữ liệu thô đến tính toán kết quả cuối cùng. Tính năng này rất hữu ích trong các tình huống cần phân tích dữ liệu đa tầng, như báo cáo tài chính hoặc phân tích chuỗi cung ứng, nơi dữ liệu thường có cấu trúc phức tạp. Việc chính thức ra mắt đảm bảo tính ổn định và hiệu suất cao khi sử dụng CTE trong các dự án lớn.
Nhận xét: Bản cập nhật này của Microsoft Fabric cho thấy sự tập trung mạnh mẽ vào việc nâng cao hiệu suất và trải nghiệm người dùng cho Data Warehouse. Từ việc hỗ trợ truy cập dữ liệu thông minh với Copilot, tối ưu hóa tải dữ liệu lớn với BULK INSERT, đến cải thiện khả năng phân tích phức tạp với Nested CTE, các tính năng này giúp người dùng quản lý và khai thác dữ liệu hiệu quả hơn. Nếu bạn đang làm việc với dữ liệu lớn hoặc cần phân tích đa chiều, đây là những công cụ đáng để trải nghiệm và áp dụng.
Nguồn: Dựa trên bài viết từ Microsoft Fabric Blog – Fabric February 2025 Feature Summary và thông tin từ hình ảnh bạn cung cấp.
Call BSD 0918 339 689 để tìm hiểu thêm về giải pháp công nghệ nền tảng dữ liệu của Microsoft Fabric và Data Warehouse. Tìm hiểu phương án tiếp cận và triển khai vào doanh nghiệp của bạn