Dưới đây là chi tiết các câu hỏi và câu trả lời thuộc Phần 2: Mô hình hóa dữ liệu mà bạn thường hay gặp trong phỏng vấn vị trí phân tích dữ liệu với Power BI
Phần 2: Mô hình hóa dữ liệu
- Mô tả: Tập trung vào mô hình dữ liệu, mối quan hệ, lược đồ, và tối ưu hóa mô hình.

Câu hỏi 1: Sự khác biệt giữa Power BI Desktop và Power BI Service là gì?
- Câu trả lời:Power BI Desktop là ứng dụng cục bộ được cài đặt trên máy tính của bạn, dùng để kết nối với nguồn dữ liệu, làm sạch, biến đổi và lập mô hình dữ liệu, cũng như tạo báo cáo với các hình ảnh trực quan như biểu đồ, đồ thị và bản đồ. Nó có khả năng hoạt động ngoại tuyến và đồng bộ hóa sau đó. Power BI Service là nền tảng dựa trên đám mây, dùng để chia sẻ và cộng tác trên báo cáo, cung cấp cập nhật dữ liệu thời gian thực, truy cập qua thiết bị di động và các tính năng bảo mật mạnh mẽ để bảo vệ dữ liệu nhạy cảm.
Câu hỏi 2: Mô hình dữ liệu trong Power BI là gì?
- Câu trả lời:Mô hình dữ liệu trong Power BI là một biểu diễn logic về cách dữ liệu được cấu trúc và liên kết trong công cụ này. Nó bao gồm các bảng và mối quan hệ giữa chúng, được sử dụng để tạo báo cáo và hình ảnh trực quan. Các thành phần chính bao gồm: bảng (đại diện cho các thực thể như sản phẩm, khách hàng hoặc doanh số), mối quan hệ (kết nối các bảng dựa trên các trường chung), thước đo (các phép tính trên dữ liệu như tổng, trung bình), và phân cấp (nhóm dữ liệu liên quan thành các cấp độ như thời gian: năm, quý, tháng, ngày). Mô hình dữ liệu tốt giúp hiểu rõ mối quan hệ giữa các yếu tố dữ liệu, hỗ trợ phân tích phức tạp, cải thiện hiệu suất truy vấn và đảm bảo thông tin chính xác.
Câu hỏi 3: Power Query khác với Power Pivot trong Power BI như thế nào?
- Câu trả lời:Power Query là công cụ chuẩn bị và biến đổi dữ liệu, tập trung vào việc làm sạch, định hình và tích hợp dữ liệu từ nhiều nguồn (ETL: Extract, Transform, Load), kết nối với các nguồn như Excel, CSV, SQL Server và dịch vụ đám mây. Power Pivot là công cụ lập mô hình và phân tích dữ liệu, sử dụng DAX (Data Analysis Expressions) để tạo cột tính toán và thước đo, hoạt động với công cụ phân tích trong bộ nhớ VertiPaq để xử lý hiệu quả dữ liệu lớn. Nói cách khác, Power Query chuẩn bị dữ liệu, còn Power Pivot phân tích và lập mô hình dữ liệu.
Câu hỏi 4: Mô tả quy trình tải dữ liệu vào Power BI.
- Câu trả lời:Quy trình tải dữ liệu vào Power BI bao gồm các bước sau:
- Khởi động Power BI Desktop trên máy tính.
- Nhấn nút “Get Data” trên tab Home và chọn nguồn dữ liệu (Excel, SQL, CSV, v.v.).
- Cung cấp thông tin xác thực (tên đăng nhập, mật khẩu, địa chỉ máy chủ) để kết nối và truy xuất dữ liệu.
- (Tùy chọn) Sử dụng Power Query để làm sạch, định hình và biến đổi dữ liệu (xóa cột không cần thiết, thay đổi kiểu dữ liệu, gộp bảng, tạo cột tính toán).
- Tải dữ liệu đã xử lý vào mô hình Power BI để sử dụng cho báo cáo và hình ảnh trực quan.
- (Tùy chọn) Thiết lập mối quan hệ giữa các bảng nếu có nhiều bảng.
- Tạo báo cáo và hình ảnh trực quan bằng các công cụ trực quan trong Power BI.
Câu hỏi 5: Vai trò của Power BI Gateway là gì?
- Câu trả lời:Power BI Gateway là thành phần quan trọng kết nối an toàn giữa dịch vụ Power BI trên đám mây và nguồn dữ liệu tại chỗ. Nó đảm bảo giao tiếp an toàn qua mã hóa và xác thực, hỗ trợ làm mới dữ liệu thời gian thực hoặc theo lịch trình, cho phép sử dụng chế độ DirectQuery để truy vấn trực tiếp mà không nhập dữ liệu, và hỗ trợ môi trường đám mây lai. Có hai loại: On-premises Data Gateway (kết nối với các nguồn như SQL Server, SharePoint) và Personal Gateway (dành cho cá nhân).
Câu hỏi 6: Bạn có thể giải thích khái niệm làm mới dữ liệu trong Power BI không?
- Câu trả lời:Làm mới dữ liệu trong Power BI là quá trình cập nhật dữ liệu trong báo cáo hoặc tập dữ liệu với thông tin mới nhất từ nguồn dữ liệu gốc, đảm bảo báo cáo phản ánh dữ liệu hiện tại. Có hai loại: làm mới thủ công (do người dùng kích hoạt từ Power BI Desktop hoặc Service) và làm mới theo lịch trình (tự động theo khoảng thời gian đã đặt). Hiệu suất làm mới phụ thuộc vào tốc độ nguồn dữ liệu, khối lượng dữ liệu, độ phức tạp của biến đổi, kết nối mạng và dung lượng dịch vụ Power BI. Để tối ưu, cần thiết kế mô hình dữ liệu hiệu quả, sử dụng làm mới gia tăng, tối ưu truy vấn nguồn dữ liệu và giám sát hiệu suất.
Câu hỏi 7: Các loại mối quan hệ có sẵn trong Power BI là gì?
- Câu trả lời:Power BI hỗ trợ bốn loại mối quan hệ chính giữa các bảng:
- Một-đến-Nhiều (1:*): Một bản ghi trong bảng này liên quan đến nhiều bản ghi trong bảng kia (ví dụ: một khách hàng có nhiều đơn hàng).
- Nhiều-đến-Một (*:1): Nhiều bản ghi trong bảng này liên quan đến một bản ghi trong bảng kia (ví dụ: nhiều giao dịch liên quan đến một sản phẩm).
- Một-đến-Một (1:1): Một bản ghi trong bảng này liên quan đến chính xác một bản ghi trong bảng kia (ví dụ: một nhân viên có một hồ sơ cá nhân).
- Nhiều-đến-Nhiều (*:*): Nhiều bản ghi trong bảng này có thể liên quan đến nhiều bản ghi trong bảng kia (ví dụ: sản phẩm thuộc nhiều danh mục và danh mục có nhiều sản phẩm), cần mô hình hóa cẩn thận.
Câu hỏi 8: Power BI tích hợp với các sản phẩm Microsoft khác như Excel và Azure như thế nào?
- Câu trả lời:Power BI tích hợp liền mạch với Excel và Azure:
- Với Excel: Nhập trực tiếp bảng tính Excel, xuất tập dữ liệu và báo cáo sang Excel, kết nối với bảng tính trên SharePoint hoặc OneDrive, và sử dụng tiện ích Power BI trong Excel để tạo hình ảnh trực quan.
- Với Azure: Tích hợp với Azure Synapse Analytics (phân tích dữ liệu lớn), Azure Data Lake Storage (lưu trữ và xử lý dữ liệu lớn), Azure SQL Database (nguồn dữ liệu quan hệ), Azure Analysis Services (mô hình hóa và tính toán phức tạp), và Azure Power BI (bảo mật và khả năng mở rộng cho doanh nghiệp).
Câu hỏi 9: Chế độ DirectQuery là gì và khi nào bạn sử dụng nó?
- Câu trả lời:DirectQuery là chế độ kết nối trong Power BI cho phép truy vấn trực tiếp nguồn dữ liệu thời gian thực mà không nhập dữ liệu vào mô hình. Cách hoạt động: Power BI kết nối với nguồn (như SQL Server), tạo truy vấn SQL từ DAX khi người dùng tương tác, lấy kết quả từ nguồn và hiển thị trong báo cáo. Sử dụng khi: xử lý tập dữ liệu cực lớn vượt quá giới hạn bộ nhớ, cần dữ liệu thời gian thực, hoặc có nhiều người dùng truy cập đồng thời.
Câu hỏi 10: Lược đồ ngôi sao và lược đồ bông tuyết trong Power BI là gì?
- Câu trả lời:
- Lược đồ ngôi sao: Thiết kế kho dữ liệu đơn giản với bảng sự kiện trung tâm (chứa số liệu) được bao quanh bởi các bảng chiều (chứa thuộc tính mô tả). Đặc điểm: đơn giản, hiệu suất truy vấn nhanh, dữ liệu phi chuẩn hóa.
- Lược đồ bông tuyết: Phiên bản chuẩn hóa hơn của lược đồ ngôi sao, các bảng chiều được chia nhỏ thành các bảng con. Đặc điểm: dữ liệu chuẩn hóa, thiết kế phức tạp, cải thiện tính toàn vẹn dữ liệu nhưng truy vấn chậm hơn do nhiều phép nối.
Câu hỏi 11: Làm thế nào để tạo cột tính toán trong Power BI?
- Câu trả lời:Để tạo cột tính toán trong Power BI:
- Chọn bảng trong ngăn Fields.
- Nhấp chuột phải vào tên bảng và chọn “New Column”.
- Viết công thức DAX trong thanh công thức, ví dụ:
Total Cost = Quantity * UnitPrice
. - Nhấn Enter hoặc nhấp vào dấu kiểm để xác nhận và áp dụng.
Câu hỏi 12: Sự khác biệt giữa cột tính toán và thước đo là gì?
- Câu trả lời:
- Cột tính toán: Tính toán ở cấp hàng, giá trị tĩnh, dùng để tạo cột mới (như gộp tên họ) hoặc phân loại dữ liệu.
- Thước đo: Tính toán động dựa trên ngữ cảnh bộ lọc, dùng để tính tổng hợp (như tổng, trung bình) hoặc phép tính phức tạp giữa các bảng.Sự khác biệt chính: cột tính toán tính theo hàng khi tải dữ liệu, thước đo tính tại thời điểm truy vấn và thay đổi theo tương tác người dùng.
Câu hỏi 13: Vai trò của khóa thay thế trong mô hình hóa dữ liệu là gì?
- Câu trả lời:Khóa thay thế là mã định danh duy nhất, nhân tạo (thường là số nguyên) gán cho mỗi bản ghi trong bảng. Vai trò: đảm bảo tính ổn định (khóa tự nhiên có thể thay đổi), cải thiện hiệu suất truy vấn, đơn giản hóa quản lý, và hỗ trợ theo dõi dữ liệu lịch sử. Ví dụ: dùng số nguyên thay vì mã sản phẩm phức tạp làm khóa chính.
Câu hỏi 14: Làm thế nào để xử lý các mức độ chi tiết khác nhau của dữ liệu trong Power BI?
- Câu trả lời:Để xử lý các mức độ chi tiết:
- Lập mô hình dữ liệu: Tạo phân cấp (như năm, quý, tháng) và thiết lập mối quan hệ giữa các bảng.
- Tính toán DAX: Sử dụng hàm thông minh thời gian (DATEADD, DATESBETWEEN) và bộ lọc để tổng hợp dữ liệu ở các mức khác nhau.
- Kỹ thuật trực quan: Sử dụng tính năng khoan xuống/khoan lên, kết hợp nhiều hình ảnh trực quan, và định dạng có điều kiện.
- Tính năng Power BI Service: Sử dụng dấu trang và Q&A để chuyển đổi mức chi tiết.Ví dụ: phân tích doanh số tổng thể, theo danh mục, hoặc theo sản phẩm cụ thể.
Câu hỏi 15: Bạn có thể giải thích khái niệm chiều đóng vai trò không?
- Câu trả lời:Chiều đóng vai trò là bảng chiều được sử dụng trong nhiều mối quan hệ với bảng sự kiện, đóng các vai trò khác nhau. Ví dụ: bảng ngày có thể dùng làm “Ngày đặt hàng”, “Ngày giao hàng”. Lợi ích: giảm độ phức tạp mô hình, cải thiện hiệu suất, tăng tính linh hoạt. Cần chú ý đặt tên rõ ràng, quản lý mối quan hệ hoạt động bằng hàm USERELATIONSHIP trong DAX.
Câu hỏi 16: Mục đích của việc tạo phân cấp trong Power BI là gì?
- Câu trả lời:Phân cấp giúp tổ chức và phân tích dữ liệu ở các mức chi tiết khác nhau. Lợi ích: cải thiện khả năng khám phá dữ liệu (khoan xuống/khoan lên), nâng cao hình ảnh trực quan, đơn giản hóa thiết kế báo cáo, và tăng hiểu biết về mối quan hệ dữ liệu. Ví dụ: phân cấp thời gian (năm, quý, tháng, ngày) hoặc địa lý (quốc gia, khu vực, thành phố).
Câu hỏi 17: Làm thế nào để tối ưu hóa mô hình dữ liệu cho hiệu suất tốt hơn?
- Câu trả lời:Để tối ưu hóa:
- Thiết kế mô hình: Giảm số bảng, tối ưu mối quan hệ, chọn kiểu dữ liệu phù hợp, tạo phân cấp hiệu quả.
- DAX: Viết công thức hiệu quả, tránh tính toán không cần thiết, sử dụng bảng tính toán ít.
- Nguồn dữ liệu: Tối ưu truy vấn, dùng tải gia tăng, điều chỉnh cài đặt nguồn.
- Dịch vụ Power BI: Chọn dung lượng phù hợp, giám sát hiệu suất, áp dụng thực hành tốt nhất.
Câu hỏi 18: Giải thích khái niệm lọc hai chiều trong mối quan hệ?
- Câu trả lời:Lọc hai chiều cho phép bộ lọc truyền theo cả hai hướng giữa hai bảng trong mối quan hệ, thay vì chỉ một chiều mặc định (từ một đến nhiều). Cách bật: trong thuộc tính mối quan hệ, đặt “Cross filter direction” thành “Both”. Sử dụng khi cần lọc nhiều-đến-nhiều hoặc mô hình phức tạp, nhưng cần thận trọng vì có thể ảnh hưởng hiệu suất và gây kết quả không mong muốn.
Câu hỏi 19: Tầm quan trọng của độ cardinal trong mô hình hóa dữ liệu là gì?
- Câu trả lời:Độ cardinal xác định số lượng bản ghi liên quan giữa các thực thể, ảnh hưởng đến tính toàn vẹn dữ liệu, tối ưu hóa truy vấn, và thiết kế mô hình. Các loại: Một-đến-Một (1:1), Một-đến-Nhiều (1:N), Nhiều-đến-Nhiều (M:N). Nó giúp tránh dữ liệu trùng lặp, tối ưu kế hoạch truy vấn và xác định điểm nghẽn hiệu suất.
Câu hỏi 20: Bảng chiều là gì và nó liên quan đến bảng sự kiện trong mô hình hóa dữ liệu Power BI như thế nào?
- Câu trả lời:Bảng chiều chứa các thuộc tính mô tả (như sản phẩm, khách hàng), thường có cấu trúc phân cấp, cung cấp ngữ cảnh và hỗ trợ lọc. Bảng sự kiện chứa số liệu định lượng (như doanh số), liên kết với bảng chiều qua khóa ngoại. Mối quan hệ này cho phép phân tích dữ liệu số theo các chiều, ví dụ: doanh số theo sản phẩm hoặc thời gian.
Câu hỏi 21: Cột tính toán và bảng tính toán trong Power BI là gì, và khi nào bạn sử dụng chúng?
- Câu trả lời:
- Cột tính toán: Thêm cột mới vào bảng dựa trên phép tính từ các cột khác, dùng để lọc, sắp xếp hoặc biến đổi dữ liệu (ví dụ: giá chiết khấu).
- Bảng tính toán: Tạo bảng mới từ dữ liệu hiện có, dùng cho tính toán trung gian, gộp dữ liệu, hoặc tạo bảng thời gian (ví dụ: bảng 10 khách hàng hàng đầu).Cột tính toán phù hợp cho phép tính đơn giản, bảng tính toán dùng cho biến đổi phức tạp.
Câu hỏi 22: Giải thích khái niệm mức độ chi tiết trong mô hình hóa dữ liệu và tầm quan trọng của nó. Cung cấp ví dụ?
- Câu trả lời:Mức độ chi tiết là cấp độ chi tiết mà dữ liệu được lưu trữ (cao: ngày, trung bình: tháng, thấp: năm). Tầm quan trọng: ảnh hưởng đến phân tích (chi tiết hơn cho phân tích sâu), lưu trữ (chi tiết cao cần nhiều không gian), và hiệu suất (chi tiết cao có thể chậm). Ví dụ: phân tích doanh số hàng ngày cần mức chi tiết cao, trong khi xu hướng hàng năm cần mức thấp.
Câu hỏi 23: Vai trò của làm sạch và biến đổi dữ liệu trong mô hình hóa dữ liệu Power BI là gì?
- Câu trả lời:Làm sạch và biến đổi dữ liệu đảm bảo dữ liệu chính xác và phù hợp cho phân tích: cải thiện chất lượng (xử lý giá trị thiếu, sửa lỗi), chuẩn hóa (định dạng nhất quán), làm giàu (gộp nguồn, tạo cột mới), và định hình (chuyển đổi cấu trúc). Power Query hỗ trợ các tác vụ này hiệu quả, nâng cao độ tin cậy của báo cáo.
Câu hỏi 24: Tầm quan trọng của bảo mật dữ liệu trong mô hình hóa dữ liệu Power BI là gì?
- Câu trả lời:Bảo mật dữ liệu rất quan trọng:
- Nguồn dữ liệu: Kết nối an toàn, mã hóa dữ liệu.
- Dịch vụ Power BI: Xác thực người dùng, kiểm soát truy cập, nhãn nhạy cảm.
- Mô hình dữ liệu: Bảo mật cấp hàng, ẩn cột nhạy cảm.
- Báo cáo: Quyền chia sẻ, hạn chế xuất.Thực hành tốt nhất: kiểm tra bảo mật định kỳ, cập nhật phần mềm, giảm thiểu dữ liệu.