Dưới đây là bản tóm tắt chi tiết nhất cho từng phần của tài liệu “Data Warehousing – Quick Guide”, tài liệu này cung cấp tất cả các vấn đề mà bạn cần quan tâm trong quá trình xây dựng nền tảng dữ liệu, hoặc data warehouse cho doanh nghiệp của bạn.

1. DATA WAREHOUSING – OVERVIEW
- Định nghĩa: Kho dữ liệu (Data Warehouse) được Bill Inmon định nghĩa lần đầu năm 1990 là một tập hợp dữ liệu định hướng theo chủ đề, tích hợp, thay đổi theo thời gian và không thay đổi (non-volatile), hỗ trợ quyết định trong tổ chức.
- Đặc điểm:
- Tách biệt khỏi cơ sở dữ liệu vận hành (operational database).
- Không cập nhật thường xuyên, chứa dữ liệu lịch sử để phân tích.
- Hỗ trợ các công cụ OLAP (Online Analytical Processing) và khai phá dữ liệu (data mining).
- Lý do tách biệt:
- Cơ sở dữ liệu vận hành tập trung vào giao dịch hàng ngày, trong khi kho dữ liệu xử lý truy vấn phức tạp và dữ liệu lịch sử.
- Truy vấn OLAP chỉ cần quyền đọc, không cần cơ chế kiểm soát giao dịch như cơ sở dữ liệu vận hành (OLTP).
2. DATA WAREHOUSE FEATURES
- Định hướng theo chủ đề (Subject Oriented): Tập trung vào các chủ đề như sản phẩm, khách hàng, doanh thu thay vì hoạt động hàng ngày.
- Tích hợp (Integrated): Gộp dữ liệu từ nhiều nguồn không đồng nhất (heterogeneous sources).
- Thay đổi theo thời gian (Time Variant): Dữ liệu gắn với khoảng thời gian cụ thể, mang tính lịch sử.
- Không thay đổi (Non-volatile): Dữ liệu cũ không bị xóa khi thêm dữ liệu mới.
3. DATA WAREHOUSE APPLICATIONS
- Ứng dụng trong: Dịch vụ tài chính, ngân hàng, hàng tiêu dùng, bán lẻ, sản xuất có kiểm soát.
4. TYPES OF DATA WAREHOUSE
- Information Processing: Xử lý dữ liệu bằng truy vấn, phân tích thống kê cơ bản, báo cáo.
- Analytical Processing: Phân tích dữ liệu với các thao tác OLAP (slice-and-dice, drill-down, drill-up, pivoting).
- Data Mining: Khai phá tri thức ẩn (patterns, associations, classification, prediction).
5. DATA WAREHOUSING – CONCEPTS
- Data Warehousing là gì?: Quá trình xây dựng và sử dụng kho dữ liệu, bao gồm làm sạch (cleaning), tích hợp (integration), và củng cố (consolidation) dữ liệu.
- Sử dụng thông tin: Hỗ trợ điều chỉnh chiến lược sản xuất, phân tích khách hàng, quản lý vận hành.
- Tích hợp cơ sở dữ liệu không đồng nhất:
- Query-driven Approach: Truy vấn truyền thống, phức tạp và chậm.
- Update-driven Approach: Tích hợp dữ liệu trước vào kho, nhanh và hiệu quả hơn.
6. DATA WAREHOUSE TOOLS AND UTILITIES
- Chức năng: Trích xuất (Extraction), Làm sạch (Cleaning), Chuyển đổi (Transformation), Tải (Loading), Làm mới (Refreshing).
7. DATA WAREHOUSING – TERMINOLOGIES
- Metadata: Dữ liệu về dữ liệu, ví dụ: chỉ mục sách. Trong kho dữ liệu, metadata là bản đồ đường dẫn, định nghĩa đối tượng, và thư mục.
- Metadata Repository: Chứa metadata về định nghĩa kho dữ liệu, metadata kinh doanh, vận hành, ánh xạ từ môi trường vận hành, và thuật toán tóm tắt.
- Data Cube: Biểu diễn dữ liệu đa chiều, định nghĩa bởi dimensions (thời gian, sản phẩm, địa điểm) và facts (doanh số, số lượng).
- Data Mart: Tập con dữ liệu tổ chức, phục vụ nhóm người dùng cụ thể (ví dụ: marketing).
- Virtual Warehouse: Góc nhìn trên kho dữ liệu vận hành, dễ xây dựng nhưng cần dung lượng dư thừa.
8. DATA WAREHOUSING – DELIVERY PROCESS
- Đặc điểm: Kho dữ liệu không tĩnh, cần linh hoạt theo nhu cầu kinh doanh.
- Delivery Method: Biến thể của phát triển ứng dụng chung (JAD), chia thành các giai đoạn để giảm rủi ro:
- IT Strategy: Đầu tư chiến lược để tạo lợi ích kinh doanh.
- Business Case: Ước tính lợi ích kinh doanh.
- Education and Prototyping: Thử nghiệm để hiểu giá trị kho dữ liệu.
- Business Requirements: Xác định yêu cầu ngắn và trung hạn.
- Technical Blueprint: Thiết kế kiến trúc tổng thể.
- Building the Version: Tạo bản sản phẩm đầu tiên.
- History Load: Tải dữ liệu lịch sử còn lại.
- Ad hoc Query: Cấu hình công cụ truy vấn.
- Automation: Tự động hóa quy trình quản lý.
- Extending Scope: Mở rộng phạm vi.
- Requirements Evolution: Điều chỉnh yêu cầu liên tục.
9. DATA WAREHOUSING – SYSTEM PROCESSES
- Process Flow:
- Trích xuất và tải dữ liệu.
- Làm sạch và chuyển đổi dữ liệu.
- Sao lưu và lưu trữ dữ liệu.
- Quản lý truy vấn.
- Extract and Load: Trích xuất từ nguồn, tải vào kho tạm thời, kiểm tra tính nhất quán.
- Clean and Transform: Làm sạch, phân vùng (partition), tổng hợp (aggregation) để tăng hiệu suất.
- Backup and Archive: Sao lưu để khôi phục, lưu trữ dữ liệu cũ.
- Query Management: Quản lý truy vấn, tối ưu nguồn dữ liệu, theo dõi hồ sơ truy vấn.
10. DATA WAREHOUSING – ARCHITECTURE
- Business Analysis Framework:
- Top-down view: Lựa chọn thông tin cần thiết.
- Data source view: Dữ liệu từ hệ thống vận hành.
- Data warehouse view: Fact tables và dimension tables.
- Business query view: Góc nhìn người dùng cuối.
- Three-Tier Architecture:
- Bottom Tier: Máy chủ cơ sở dữ liệu kho.
- Middle Tier: Máy chủ OLAP (ROLAP hoặc MOLAP).
- Top Tier: Lớp giao diện người dùng (query tools, reporting tools).
- Data Warehouse Models: Virtual Warehouse, Data Mart, Enterprise Warehouse.
11. DATA WAREHOUSING – OLAP
- Types of OLAP Servers:
- ROLAP: Dùng RDBMS, lưu trữ quan hệ.
- MOLAP: Dùng mảng đa chiều, nhanh hơn nhưng kém chi tiết.
- HOLAP: Kết hợp ROLAP và MOLAP.
- Specialized SQL Servers: Hỗ trợ truy vấn nâng cao.
- OLAP Operations: Roll-up (tổng hợp), Drill-down (chi tiết hóa), Slice (cắt lát), Dice (cắt khối), Pivot (xoay).
12. DATA WAREHOUSING – RELATIONAL OLAP (ROLAP)
- Đặc điểm: Dùng RDBMS, phân tích dữ liệu đa chiều, có khả năng mở rộng cao.
- Ưu điểm: Tích hợp dễ với RDBMS hiện có, không cần cube tính toán trước.
- Nhược điểm: Hiệu suất truy vấn kém, hạn chế về khả năng mở rộng.
13. DATA WAREHOUSING – MULTIDIMENSIONAL OLAP (MOLAP)
- Đặc điểm: Dùng mảng đa chiều, nhanh, phù hợp cho người dùng không chuyên.
- Ưu điểm: Truy xuất nhanh, dễ sử dụng.
- Nhược điểm: Không chứa dữ liệu chi tiết, dung lượng lưu trữ thấp nếu dữ liệu thưa thớt.
14. DATA WAREHOUSING – SCHEMAS
- Star Schema: Một bảng dimension cho mỗi chiều, dễ gây dư thừa dữ liệu.
- Snowflake Schema: Chuẩn hóa bảng dimension, giảm dư thừa.
- Fact Constellation Schema: Nhiều bảng fact, chia sẻ dimension.
15. DATA WAREHOUSING – PARTITIONING STRATEGY
- Mục đích: Quản lý dễ, sao lưu/khôi phục, tăng hiệu suất.
- Horizontal Partitioning: Chia theo thời gian hoặc chiều khác (vùng, sản phẩm).
- Vertical Partitioning: Chia dọc (Normalization hoặc Row Splitting).
- Round Robin Partitions: Lưu trữ vòng, tự động hóa quản lý.
16. DATA WAREHOUSING – METADATA CONCEPTS
- Metadata: Dữ liệu về dữ liệu, là bản đồ kho dữ liệu.
- Phân loại: Business Metadata, Technical Metadata, Operational Metadata.
- Vai trò: Hỗ trợ định vị dữ liệu, ánh xạ, tóm tắt, công cụ truy vấn.
17. DATA WAREHOUSING – DATA MARTING
- Mục đích: Phân vùng dữ liệu, tăng tốc truy vấn, kiểm soát truy cập.
- Chi phí: Phần cứng/phần mềm, mạng, thời gian xử lý.
18. DATA WAREHOUSING – SYSTEM MANAGERS
- Các loại: Configuration, Scheduling, Event, Database, Backup Recovery Managers.
- Chức năng: Quản lý cấu hình, lịch trình, sự kiện, cơ sở dữ liệu, sao lưu.
19. DATA WAREHOUSING – PROCESS MANAGERS
- Load Manager: Trích xuất, tải nhanh, chuyển đổi đơn giản.
- Warehouse Manager: Kiểm tra toàn vẹn, tạo chỉ mục, tổng hợp, sao lưu.
- Query Manager: Điều hướng truy vấn, lập lịch, tối ưu hóa.
20. DATA WAREHOUSING – SECURITY
- Yêu cầu: Phân loại dữ liệu/người dùng, kiểm toán, bảo mật mạng, di chuyển dữ liệu.
- Ảnh hưởng: Tăng độ phức tạp của thiết kế, phát triển ứng dụng, kiểm thử.
21. DATA WAREHOUSING – BACKUP
- Loại: Complete, Partial, Cold, Hot, Online.
- Phần cứng: Tape (Media, Drives, Stackers, Silos), Disk (Disk-to-Disk, Mirror Breaking), Optical Jukeboxes.
- Phần mềm: Quản lý và kiểm soát sao lưu (Networker, ADSM, v.v.).
22. DATA WAREHOUSING – TUNING
- Khó khăn: Kho dữ liệu động, truy vấn không dự đoán được.
- Tuning: Tải dữ liệu (bỏ qua kiểm tra, quản lý chỉ mục), truy vấn cố định/ad hoc.
23. DATA WAREHOUSING – TESTING
- Mức độ: Unit, Integration, System Testing.
- Kiểm tra: Sao lưu/khôi phục, môi trường vận hành, cơ sở dữ liệu, ứng dụng.
24. DATA WAREHOUSING – FUTURE ASPECTS
- Xu hướng: Kích thước cơ sở dữ liệu tăng, nhu cầu truy cập trực tuyến, xử lý dữ liệu đa phương tiện.
25. DATA WAREHOUSING – INTERVIEW QUESTIONS
- Câu hỏi tiêu biểu: Định nghĩa kho dữ liệu, OLAP/OLTP, schema, metadata, data mart, v.v.
Tóm tắt chung
Tài liệu cung cấp cái nhìn toàn diện về kho dữ liệu từ khái niệm, đặc điểm, ứng dụng, đến kiến trúc, quy trình, bảo mật, sao lưu, tối ưu hóa và kiểm thử. Nó nhấn mạnh vai trò của kho dữ liệu trong hỗ trợ quyết định kinh doanh và các thách thức trong triển khai, vận hành hệ thống này.
Nếu bạn cần tư vấn xây dựng data warehouse cho doanh nghiệp của bạn, hãy liên lạc với BSD 0918 339 689