
Please or Register to create posts and topics.

AWS Glue là gì

AWS Gule là gì?

AWS glue là công cụ để bạn khai phá, chuẩn bị, tích hợp dữ liệu với tất cả các quy mô dữ liệu của bạn (từ bạn Amazon viết là Discover, prepare, and integrate all your data at any scale)

Nói cho nó đơn giản lại là AWS Glue là công cụ để bạn thâu tóm dữ liệu của bạn có từ ERP, CRM, SCM, từ có cấu trúc cho nới Sơmi-Cấu trúc và Phi cấu trúc, và từ quy mô từ vài dòng dữ liệu cho tới vài chục, trăm GB dữ liệu, hoặc TB dữ liệu cho 1 ngày mà bạn có thỉ Glue đều có thể đảm nhận cả.

Why AWS Glue?
Preparing your data to obtain quality results is the first step in an analytics or ML project. AWS Glue is a serverless data integration service that makes data preparation simpler, faster, and cheaper. You can discover and connect to over 70 diverse data sources, manage your data in a centralized data catalog, and visually create, run, and monitor ETL pipelines to load data into your data lakes.
Với AWS thì 
  1. Hỗ trợ cho tất cả các mô hình xử lý dữ liệu – Flexible support for ETL, ELT, batch, streaming and more, with no lock-in
  2. Mở rộng cỡ nào cũng được, đừng lo lắng là bạn có quá nhiều dữ liệu, mà hãy làm thế nào để kiếm đủ dữ liệu để AWS Glue xử lý cho bạn – Petabyte scale, pay-as-you-go billing, any data size
  3. Công cụ rất dễ sử dụng cho tất cả các thành viên của doanh nghiệp Support all data users from developers to business users
  4. Complete data integration capabilities in one serverless service

Thu gồm và xử lý dữ liệu cho tất cả các quy mô mà doanh nghiệp cần

The diagram shows how AWS Glue users can choose from interface options to create job workloads using multiple data integration engines. Four sections display: one on the left, two in the middle, and one on the right.

The first section on the left is called “Data sources.” It includes the following data sources: “Amazon S3,” “Amazon DynamoDB,” “Databases running on Amazon EC2,” “Databases,” and “SaaS.”

From the first section, there is an arrow pointing to the middle section at the top of the diagram called “Choice of interfaces.” Three items are included in this second section: “AWS Glue Studio,” “Amazon SageMaker notebooks,” and “Notebooks and IDEs.”

Below this second section, there is text that says, “Open interfaces support interactive and job workloads.” This text includes an arrow pointing to the previously described second section above it and an arrow pointing to the third section below it.

This third section is called “Data integration engines.” The text says, “Choose a preferred serverless, scalable data processing engine with automatic scaling and pay-as-you-go pricing.” This section includes three engine names: “AWS Glue for Ray,” “AWS Glue for Python Shell,” and “AWS Glue for Apache Spark.”

The fourth section appears to the right of the second section with an arrow pointing from the second section to the fourth section. The fourth section says, “Create and load data into data lakes and data warehouses.” This section also includes three items: “Amazon Redshift,” “Data lakes,” and “Data warehouses.”

AWS Glue là gì

AWS Glue can run your extract, transform, and load (ETL) jobs as new data arrives. For example, you can configure AWS Glue to initiate your ETL jobs to run as soon as new data becomes available in Amazon Simple Storage Service (S3).

AWS Glue, công cụ chuyển đổi dữ liệu

You can use the Data Catalog to quickly discover and search multiple AWS datasets without moving the data. Once the data is cataloged, it is immediately available for search and query using Amazon Athena, Amazon EMR, and Amazon Redshift Spectrum.

AWS Glue