How Can We Help?

Search for answers or browse our knowledge base.

Table of Contents
< All Topics
Print

Bộ dữ liệu Bookshop

Bộ dữ liệu Bookshop

Bộ dữ liệu Bookshop được tạo ra cho Tableau Desktop 2020.2 để giới thiệu relationships (mối quan hệ) – các khả năng mô hình hóa dữ liệu mới để kết hợp dữ liệu.

Tải xuống các tệp

Bạn có thể chọn tải xuống dữ liệu thô và bắt đầu từ đầu để xây dựng mô hình dữ liệu của riêng mình, hoặc tải xuống một trong những data source (nguồn dữ liệu) đã được xây dựng sẵn để bắt đầu phân tích ngay với relationships.

  • Dữ liệu thô (xlsx)
    • Bookshop.xlsx – dữ liệu thô dưới dạng tệp .xlsx
    • BookshopLibraries.xlsx – các bảng thư viện bổ sung giới thiệu mối quan hệ nhiều-nhiều (many-to-many), chỉ chứa các bảng thư viện bổ sung
  • Tệp data source đóng gói (tdsx)
    • Bookshoptdsx – tệp .tdsx đóng gói với data source liên quan đã được xây dựng và thêm một số tùy chỉnh metadata (siêu dữ liệu)
    • MinimalBookshoptdsx – cùng các bảng như Bookshop.tdsx nhưng không có metadata hoặc dọn dẹp dữ liệu
    • Bookshop_libraries.tdsx – tệp .tdsx đóng gói bổ sung các bảng thư viện vào Bookshop.tdsx (bao gồm tất cả các bảng)

Để kết nối với tệp .tdsx đã tải xuống:

  1. Mở Tableau Desktop.
  2. Trong Connect pane (bảng Kết nối) bên trái, chọn tùy chọn More… dưới tiêu đề To a File.
  3. Điều hướng đến nơi bạn đã tải xuống tệp .tdsx và nhấp đúp vào nó (hoặc chọn tệp và nhấp vào Open).

Về bộ dữ liệu

Bookshop bao gồm 13 bảng, được kết hợp theo cách sau:

Lưu ý: Một khái niệm trung tâm của bộ dữ liệu này là sự khác biệt giữa book (sách) và edition (phiên bản). Một book là một khái niệm với các thuộc tính như tác giả, tiêu đề, và thể loại. Một edition là phiên bản vật lý của sách, với các thuộc tính như format (định dạng – bìa cứng, bìa mềm), ngày xuất bản, và số trang.

Từ điển dữ liệu

Một số trường có thể cần giải thích thêm:

  • Trường Rating trong bảng Ratings (Đánh giá) nằm trong thang điểm từ 1-5, với 5 là cao nhất.
  • Trường Format là phân tích chi tiết về định dạng. Mọi thứ ngoài “Hardcover” (bìa cứng) có thể được coi là “Paperback” (bìa mềm).
  • ISBN là viết tắt của International Standard Book Number (Số sách tiêu chuẩn quốc tế), là một mã định danh 13 chữ số duy nhất được gán cho mỗi edition của một cuốn sách. ISBN được thể hiện trong mã vạch và gắn với giá cả.
  • Các trường ItemID và OrderID có tính phân cấp. Một đơn hàng có thể chứa nhiều mặt hàng.
  • Trường Staff Comment chứa các tóm tắt và đánh giá cho một số cuốn sách.

Nếu bạn tự xây dựng data source của mình

  1. Bảng Publisher (Nhà xuất bản) và Sales (Doanh số) phải được liên kết với bảng Edition (Phiên bản).
  2. Bảng Book (Sách) và Info (Thông tin) có thể được liên kết hoặc ghép nối, nhưng phải dựa trên phép tính BookID = [BookID1] + [BookID2].
    • Đề xuất sử dụng inner join (ghép nối bên trong).
    • Bảng Series (Loạt sách) chỉ có thể được sử dụng sau khi bảng Info đã là một phần của data source.
  3. Tùy chọn:
    • Chúng tôi khuyên bạn nên đổi tên bảng logic của Book ghép với Info thành “Book” hoặc một tên tương tự.
    • Bốn bảng Sales có thể được phân tích độc lập, nhưng nếu chúng được gộp (union), chúng tôi khuyên bạn nên đổi tên gộp thành “Sales” hoặc một tên tương tự.
  4. Hầu hết các trường được sử dụng để tạo relationships (mối quan hệ) không cần thiết cho phân tích và có thể được ẩn sau khi mô hình dữ liệu đã được xây dựng:
    • Bất kỳ trường nào kết thúc bằng ID đều có thể được ẩn (các trường “ID” duy nhất không nên ẩn là ReviewID và ReviewerID từ bảng Ratings, và ItemID và OrderID từ bảng Sales).
    • ISBN nên được giữ lại, lý tưởng nhất là từ bảng Edition, làm định danh cho mỗi edition. Trường ISBN trong bảng Sales gộp có thể được ẩn.
    • Trường Title trong bảng Award (Giải thưởng) có thể được ẩn.
    • Các trường sheet và table từ Union (gộp) cũng không chứa thông tin duy nhất và có thể được ẩn.
  5. Để đơn giản hóa mô hình dữ liệu, các bảng cốt lõi là BookAuthor (Tác giả), và Edition. Các bảng dễ bỏ qua nhất với tác động tối thiểu là Checkouts (Lượt mượn) và Ratings, sau đó là Award (Giải thưởng), PublisherSales, hoặc Info và Series.

Bookshop Libraries

Tệp BookshopLibraries.xlsx giới thiệu các bảng mới liên quan đến thư viện nhằm hỗ trợ mối quan hệ nhiều-nhiều (many-to-many). Bảng Catalog (Danh mục) liên kết với bảng Editions (Phiên bản) dựa trên ISBN. Bảng Library Profiles (Hồ sơ Thư viện) liên kết với bảng Catalog theo mối quan hệ nhiều-nhiều (n:n) dựa trên LibraryID.

Từ điển dữ liệu

Library Profile (Hồ sơ Thư viện)

  • Trường Library là tên của thư viện.
  • Trường Library ID là một ID cũng được sử dụng trong bảng Catalog.
  • Trường Consortium Member (Thành viên Liên minh) là trường có/không, cho biết liệu thư viện có thuộc mạng lưới thư viện lớn hơn cung cấp dịch vụ mượn liên thư viện và chia sẻ các dịch vụ khác không.
  • Trường Private (Riêng tư) là trường có/không, cho biết liệu đây là thư viện chỉ dành cho thành viên hay một cơ sở công cộng.
  • Staff Type (Loại Nhân viên) và Number of Staff (Số lượng Nhân viên) cùng nhau mô tả số lượng Librarians (Thủ thư), Library Assistants (Trợ lý Thư viện), và Library Technicians (Kỹ thuật viên Thư viện) làm việc tại mỗi thư viện.

Catalog (Danh mục)

  • LoanID là định danh duy nhất cho sự kết hợp giữa ISBN và thư viện, được sử dụng để theo dõi Number of Copies (Số lượng Bản sao) mà một thư viện có. Ví dụ, nếu Thư viện Idle Hour có hai bản bìa mềm và một bản bìa cứng của một tiêu đề, sẽ có hai LoanID.
  • Trường Library ID là một ID cũng được sử dụng trong bảng Library Profile.

Cấu trúc của bảng Library Profile

Bảng Library Profile ban đầu được định dạng như một bảng chưa được xoay (unpivoted) với một cột cho mỗi loại nhân viên, như bên dưới:

LibraryLibraryIDConsortium MemberPrivateLibrariansLibrary TechniciansLibrary Assistants
Idle Hour LibraryL-IHLYesNo536116
The Bibliophile’s ShelvesL-BSYesYes430
Armchair AthanaeumL-AANoYes600
Old Friend LibraryL-OFLYesNo3517
Bide AwhileL-BAYesNo9206
IndieUnBoundL-IUBYesNo7247
Page Station Book ExchangeL-PSNoYes314

Bảng này đã được xoay (pivoted) qua các cột LibrariansLibrary Technicians, và Library Assistants. Định dạng cuối cùng có một cột cho Staff Type và một cột cho Number of Staff. Tuy nhiên, điều này có nghĩa là có nhiều hơn một hàng cho mỗi thư viện. Do đó, các giá trị Library ID không còn duy nhất, và phiên bản xoay của bảng phải được liên kết theo mối quan hệ nhiều-nhiều (many-to-many) với bảng Catalog.

Mặc dù điều này mang lại lợi ích là cho phép mối quan hệ nhiều-một (many-to-one) giữa Catalog và Profile, nhưng đây không phải là cấu trúc lý tưởng cho phân tích dữ liệu.

Khám phá

Bộ dữ liệu này, mặc dù là giả định, hỗ trợ nhiều kịch bản phân tích và rất nhiều cơ hội khám phá. Một số gợi ý bao gồm:

  • Những cuốn sách nào phổ biến nhất? Ít phổ biến nhất? Điều đó dựa trên doanh số, đánh giá, lượt mượn, hay một thước đo khác?
  • Tác giả ra mắt trẻ nhất là ai? Người lớn tuổi nhất là ai?
  • Một số nhà xuất bản có vẻ chuyên về lĩnh vực nào không?
  • Thời gian dài nhất giữa các phiên bản của cùng một cuốn sách là bao lâu?
  • Có xu hướng theo mùa nào cho doanh số không? Còn về lượt mượn thì sao? Có tiêu đề hoặc thể loại nào có biến động theo mùa không?
  • Có mối tương quan nào giữa lượt mượn, quy mô in, xếp hạng đánh giá sách, và khối lượng doanh số không?
  • Những tác giả dành nhiều thời gian nhất để viết có phải là những người có sách thành công nhất không? Họ có số trang cao nhất không?
  • Hầu hết các cuốn sách được xuất bản khi nào? Có bất kỳ điểm bất thường nào không?
  • Có xu hướng nào về thể loại, định dạng, và giá cả không?
  • Phân phối của các xếp hạng như thế nào? Những phân phối đó có khác nhau theo sách không? Theo thể loại không? Chúng có vẻ phù hợp với các giải thưởng không?
  • Bạn sẽ tính giá bán như thế nào, khi đôi khi – nhưng không phải lúc nào cũng – có giảm giá tại thời điểm bán?
  • Doanh số có tuân theo nguyên tắc Pareto không?
  • Có mô hình nào trong các khoản giảm giá không?
  • Có bảng nào đặc biệt dường như chứa dữ liệu không sạch (dirty data) không?

Những Easter Egg trong Bộ dữ liệu Bookshop

  • Etaoin Shrdlu là một tham chiếu đến máy in linotype hot type. Palimpsest là một tham chiếu đến việc làm bản thảo.
  • Tên tác giả được lấy từ danh sách các tác giả nổi tiếng của Mỹ với tên và họ được hoán đổi.
  • Ngày xuất bản hiện nay thường vào các ngày Thứ Ba. Điều này được phản ánh trong dữ liệu, giả định rằng tiêu chuẩn ngành này vẫn giữ nguyên đến năm 2178.
  • Một cuốn sách không có đánh giá, lượt mượn, hoặc doanh số.
  • Dữ liệu Checkouts dựa trên dữ liệu thư viện thực tế, với BookID được ánh xạ đến các tiêu đề, vì vậy xu hướng lượt mượn là thực tế.
  • Dữ liệu Ratings dựa trên dữ liệu xếp hạng sách thực tế, với BookID được ánh xạ đến các tiêu đề, vì vậy phân phối xếp hạng cho một cuốn sách nhất định là thực tế.
  • Tỷ lệ doanh số cho một cuốn sách so với nhiều cuốn sách dựa trên dữ liệu thực tế từ một hiệu sách độc lập.
  • Dữ liệu Sales được tạo hoàn toàn, nhưng dựa trên xu hướng theo mùa và ngày trong tuần thực tế cho một thị trấn nghỉ dưỡng có nền kinh tế dựa vào du lịch (theo tỷ lệ theo tháng và ngày trong tuần, và cho kỳ nghỉ xuân và mùa đông).
  • Doanh số tăng đột biến vào các kỳ nghỉ cuối tuần dài và kỳ nghỉ xuân.
  • Doanh số cao hơn nhiều vào cuối tuần và thấp nhất vào Thứ Ba và Thứ Năm.
  • Mùa cao điểm là mùa hè, giữa ngày 4 tháng 7 và Ngày Lao động.
  • Doanh số tăng đột biến ngay sau Lễ Tạ Ơn và trong những tuần trước Giáng sinh.
  • Các ISBN trong bộ dữ liệu là giả định nhưng được xây dựng theo nguyên tắc ISBN-13:
    • EAN-989 (không thực sự được sử dụng)
    • Số nhóm-28
    • Yếu tố đăng ký nhà xuất bản-độ dài thay đổi (2-4 chữ số)
    • Yếu tố tiêu đề, độ dài thay đổi (3-5 chữ số, tùy thuộc vào độ dài yếu tố đăng ký)
    • Chữ số kiểm tra, được tạo bằng phép tính số học mô-đun ISBN-13
  • Một trong những nhà phát triển làm việc trên tính năng này đã đề xuất một cuốn sách không có phiên bản, với tiêu đề The Deep Grey, vì vậy BookID của nó kết thúc bằng ba chữ số cuối của số điện thoại công việc của anh ấy.
  • Có một lỗi (cố ý) trong bảng Edition nơi hai phiên bản của BookID PA169 được ghi nhãn là Palimpsest Printing, nhưng ISBN cho thấy chúng thực sự được in bởi Etaoin Shrdlu Press.

Người tạo ra bộ dữ liệu này đã có quá nhiều niềm vui khi làm việc với nó, và rõ ràng có một niềm đam mê sâu sắc với sách. Cô ấy hy vọng bạn thích bộ dữ liệu này và nó giúp bạn đánh giá cao sức mạnh, sự thanh lịch, và vẻ đẹp của relationships (mối quan hệ) trong Tableau.

Was this article helpful?
0 out of 5 stars
5 Stars 0%
4 Stars 0%
3 Stars 0%
2 Stars 0%
1 Stars 0%
5
Please Share Your Feedback
How Can We Improve This Article?