Forum

Please or Register to create posts and topics.

Quản trị dữ liệu với Tableau Catalog

Dữ liệu ngày càng quan trọng, nó đang tăng lên về dung lượng, đa dạng về loại dữ liệu; điều này dẫn đến việc không gian dữ liệu càng phức tạp hơn. Với tốc độ thay đổi nhanh chóng của dữ liệu như vậy thì việc theo dõi và quản lý cũng trở nên khó khăn hơn; như vậy, vấn đề là làm thế nào để sử dụng hay quản lý dữ liệu trong môi trường phức tạp. Bên cạnh đó, hiện tại ngày càng nhiều người dùng cần truy cập dữ liệu trong nhiều không gian khác nhau hơn, và càng khó khăn hơn khi họ muốn truy cập chính xác dữ liệu mà mình cần. Sau cùng việc này làm cho người dùng thiếu tin tưởng vào dữ liệu bởi vì họ không chắc liệu rằng mình có đang sử dụng đúng nguồn dữ liệu và ngay cả khi nó được cập nhật.

Tableau Catalog tích hợp những tính năng như: Nguồn gốc dữ liệu (lineage), tác động phân tích (impact analysis) , từ điển dữ liệu (data dictionary), cảnh báo chất lượng dữ liệu (data quality warnings) và tìm kiếm các ứng dụng của Tableau; ngoài ra, nó còn giúp giải quyết những vấn đề này từ một catalog độc lập. Nhờ việc tập trung vào IT và người dùng cuối cùng nên hầu như tất cả mọi người khi sử dụng Tableau Server và Tableau Online sẽ có thêm sự tin tưởng, khả năng hiển thị dữ liệu, và đồng thời khả năng khám phá cũng được cho phép nhiều hơn. Tableau Catalog xây dựng một danh mục nội dung Tableau (Tableau content) được sử dụng trong tổ chức; bên cạnh đó, nó còn tạo ra những tính năng toàn diện như:

  • Impact analysis và lineage:
    + Bạn có thể nhìn thấy những workbook và nội dung Tableau (Tableau content) khác sử dụng các cột hoặc trường cụ thể từ bảng hoặc nguồn dữ liệu mà bạn quản lý. Khi bạn cần thay đổi dữ liệu, bạn có thể thông báo những tác động này bằng email.
    + Với vai trò người tạo ra workbook, bạn có thể sử dụng lineage để theo dõi các trường dữ liệu có trong workbook của bạn.
    + Với vai trò người dùng, khi bạn sử dụng một Tableau visualization, bạn có thể nhìn thấy nơi mà nguồn dữ liệu đến để sử dụng cho mục đích trực quan.

  • Curation và trust: Với vai trò là người quản lý, bạn có thể thêm metadata hữu ích, chẳng hạn như: mô tả và kiểm chứng; từ đó, bạn sẽ dễ dàng tìm đúng dữ liệu mình cần. Bạn có thể tạo những cảnh báo về chất lượng dữ liệu, xem chi tiết dữ liệu tại khung Data Details, kiểm chứng nội dung, và xóa đi nội dung từ danh mục.

  • Data discovery: Khám phá dữ liệu, bạn có thể sử dụng Tableau Catalog để tìm kiếm cơ sở dữ liệu (databases), bảng (tables), hoặc nguồn dữ liệu (data sources) nhằm mục đích phân tích trong Tableau và kết nối chúng từ kết quả tìm kiếm.

Ra mắt ở phiên bản 2019.3, Tableau Catalog có sẵn trong Data Management Add-on, Tableau Server và Tableau Online. Khi bạn kích hoạt sản phẩm, những tính năng của Catalog (đã nhắc đến ở trên) được tích hợp vào sản phẩm mà bạn đang dùng.

Cách mà Tableau Catalog hoạt động

Tableau Catalog tìm và lập chỉ mục cho tất cả nội dung trên trang Web, workbooks, metrics, data sources, sheets, và flow của bạn để thu thập metadata về nội dung. Từ metadata, những databases, và tables, (được đề cập đến như external assets) được định nghĩa hay xác định. Nhận biết được mối quan hệ giữa nội dung và external assets cho phép Tableau hiển thị nguồn gốc nội dung và assets bên ngoài. Tableau Catalog cũng cho phép người dùng kết nối đến external assets thông qua việc sử dụng Tableau Server hoặc Tableau Online.

Những thuật ngữ quan trọng trong Tableau Catalog

  • Metadata: Thông tin, miêu tả về dữ liệu.

  • Tableau content: Nội dung được tạo ra trong Tableau như: Workbooks, data sources và flows.

  • External assets: Metadata về databases và tables được sử dụng bởi Tableau content, những nội dung được công khai lên Tableau Server hoặc Tableau Online.

Cấp quyền Tableau Catalog

Tableau Catalog được cấp phép thông qua Data Management Add-on.

Kết nối Tableau Catalog

Sau khi Tableau Server và Tableau Online được cấp phép bởi Data Management Add-on, bạn có thể bật Tableau Catalog bằng những cách sau:

  • Đối với Tableau Online: Tableau Catalog được mặc định, và được cấu hình sẵn để sử dụng các quyền trích dẫn (derived permissions).

  • Đối với Tableau Server: Người quản trị Server đầu tiên phải bật Tableau Metadata API bằng việc sử dụng lệnh tsm maintenance metadata-services.

Sau khi Metadata API được bật, Tableau Catalog thành trạng thái mặc định, và được cấu hình để sử dụng các quyền trích dẫn.

Tính năng và chức năng

Data discovery:

  • Trong thẻ Connect trên Tableau Desktop, bên dưới Search for Data chọn Tableau Server. Khi Tableau Catalog được bật, ngoài việc tìm kiếm những nguồn dữ liệu đã được kết nối, bạn cũng có thể tìm vả kết nối đến những databases và bảng cụ thể từ những nguồn đã được đưa lên Tableau Server hay Tableau Online.

  • Search được mở rộng, kết quả bao gồm: fields, columns, databases, và các tables khi Tableau Catalog được bật.

  • Nếu bạn muốn tạo một workbook, bạn có thể kết nối đến databases, bảng cũng như là xuất data sources từ Tableau Server và Tableau Online.

Curation và trust:

  • Certify your data assets (kiểm chứng thông tin dữ liệu của bạn) giúp người dùng nhận biết dữ liệu đáng tin cậy và được đề xuất.

  • Tạo data quality warnings (cảnh báo chất lượng dữ liệu) thông báo người dùng về những vấn đề chất lượng dữ liệu như là: dữ liệu cũ, dữ liệu không dùng nữa.

  • Categorize items (đối tượng phân loại) trên Tableau Server và Tableau Online sử dụng tags , nó giúp người dùng lọc ra những thông tin bên ngoài (external assets).

  • Add descriptions (thêm thông tin miêu tả) đến databases, bảng, và các cột giúp người dùng tìm thấy dữ liệu mà họ đang quan tâm.

Lineage và impact analysis:

  • Sử dụng lineage để theo dõi nguồn dữ liệu của bạn, phân tích sự tác động của những thay đổi đến dữ liệu của bạn và xác định những người dùng nào có thể sẽ bị tác động từ sự thay đổi này.

  • Email owners người sở hữu email của một workbook, datasources, flow hoặc địa chỉ liên hệ cho databases, table sẽ nhận được những thông tin cập nhật dữ liệu liên quan thông qua email.

Developer resources:

Bạn có thể sử dụng phương pháp metadata trong tableau REST API để cập nhật một số metadata nhất định theo chương trình.

Ngoài REST API, bạn có thể sử dụng Tableau Metadata API để truy vấn metadata theo chương trình từ nội dung đã được xuất ra trên Tableau Server và Tableau Online. Metadata API nhanh và linh hoạt, đặc biệt là khi bạn tìm ra một thông tin cụ thể về mối quan hệ giữa metadata và cấu trúc của nó. Khám phá và kiểm tra những câu truy vấn dựa trên Metadata API bằng cách sử dụng công cụ tương tác trong trình duyệt, gọi là GraphiQL.

Lưu ý: Data Management Add-on không yêu cầu sử dụng Metadata API và GraphiQL.

Nguồn:

About Tableau Catalog