Nguồn dữ liệu bên ngoài là nguồn dữ liệu mà bạn có thể truy vấn trực tiếp từ BigQuery, mặc dù dữ liệu không được lưu trữ trong bộ nhớ BigQuery. Ví dụ: bạn có thể có dữ liệu trong một cơ sở dữ liệu Google Cloud khác, trong các tệp trong Cloud Storage hoặc trong một sản phẩm đám mây khác mà bạn muốn phân tích trong BigQuery, nhưng bạn chưa sẵn sàng di chuyển.
Sau đây là một số trường hợp sử dụng nguồn dữ liệu bên ngoài:
- Đối với khối lượng công việc trích xuất-tải-chuyển đổi (ELT), hãy tải và dọn dẹp dữ liệu trong một lần và ghi kết quả đã dọn dẹp vào bộ nhớ BigQuery bằng cách sử dụng truy vấn
CREATE TABLE ... AS SELECT
. - Kết hợp các bảng BigQuery với dữ liệu thay đổi thường xuyên từ một nguồn dữ liệu bên ngoài. Bằng cách truy vấn trực tiếp nguồn dữ liệu bên ngoài, bạn không cần tải lại dữ liệu vào bộ nhớ BigQuery mỗi khi dữ liệu thay đổi.
Là khách hàng của Ads Data Hub dành cho nhà tiếp thị, bạn có thể tận dụng tính năng BigQuery này để dễ dàng đưa dữ liệu của bên thứ nhất từ các nguồn khác (chẳng hạn như S3 và Azure) vào, đồng thời kết hợp dữ liệu đó với dữ liệu quảng cáo của Google trong các truy vấn của bạn.
Để biết thông tin đầy đủ về cách kết nối nguồn dữ liệu bên ngoài với BigQuery, hãy xem bài viết Giới thiệu về nguồn dữ liệu bên ngoài.
Các điểm hạn chế
- Các vị trí sau đây được hỗ trợ. Nếu dữ liệu trên AWS hoặc Azure của bạn nằm ở một khu vực không được hỗ trợ, bạn cũng có thể cân nhắc sử dụng Dịch vụ chuyển dữ liệu của BigQuery.
- AWS – Miền Đông Hoa Kỳ (Bắc Virginia Virginia) (
aws-us-east-1
) - Azure – Hoa Kỳ 2 miền Đông (
azure-eastus2
)
- AWS – Miền Đông Hoa Kỳ (Bắc Virginia Virginia) (
- Các công việc chạy trên dữ liệu từ các kết nối BigQuery:
- phải tuân theo cùng một yêu cầu tổng hợp như các công việc khác trong Ads Data Hub
- phải tuân thủ chính sách của Google
Amazon S3
Sau đây là thông tin tổng quan sơ bộ về các bước cần thiết để xuất dữ liệu từ Amazon S3 sang BigQuery nhằm sử dụng trong Trung tâm dữ liệu quảng cáo. Tham khảo phần Kết nối với Amazon S3 để biết toàn bộ thông tin chi tiết.
- Tạo chính sách IAM của AWS cho BigQuery. Sau khi tạo chính sách, bạn có thể tìm thấy tên tài nguyên Amazon (ARN) trong trang Chi tiết chính sách.
- Tạo vai trò AWS IAM cho BigQuery bằng chính sách đã tạo ở bước trước.
- Tạo mối kết nối trong BigQuery. Tạo một mối kết nối trong một dự án BigQuery mà Ads Data Hub có quyền truy cập, ví dụ: dự án quản trị của bạn. Danh tính Google BigQuery sẽ được sử dụng trong bước tiếp theo, xuất hiện trên trang Thông tin kết nối.
- Thêm mối quan hệ tin cậy vào vai trò AWS. Trên trang AWS IAM, hãy chỉnh sửa vai trò đã tạo ở bước trước:
- Sửa đổi thời lượng phiên tối đa thành 12 giờ.
- Thêm chính sách tin cậy vào vai trò AWS bằng cách sử dụng danh tính Google BigQuery đã tạo ở bước trước.
- Tải dữ liệu vào tập dữ liệu BigQuery.
- Truy vấn dữ liệu trong Ads Data Hub. Tìm hiểu về cách kết hợp dữ liệu của bên thứ nhất.
- Không bắt buộc: Lên lịch tải dữ liệu liên tục trong BigQuery.
Azure Blob Storage
Sau đây là thông tin tổng quan sơ bộ về các bước cần thiết để xuất dữ liệu từ Azure Blob Storage sang BigQuery để sử dụng trong Ads Data Hub. Hãy tham khảo phần Kết nối với Bộ nhớ blob để biết toàn bộ thông tin chi tiết.
- Tạo một ứng dụng trong khách hàng Azure.
- Tạo mối kết nối trong BigQuery.
- Mã khách hàng là mã thư mục ở bước trước.
- Mã ứng dụng (ứng dụng khách) liên kết là Mã ứng dụng (ứng dụng khách) từ bước trước.
- Danh tính Google BigQuery sẽ được sử dụng ở bước tiếp theo.
- Thêm thông tin xác thực liên kết trong Azure.
- Đối với Mã nhận dạng chủ đề, hãy sử dụng danh tính Google BigQuery từ bước trước.
- Chỉ định vai trò cho các ứng dụng Azure của BigQuery, cấp quyền truy cập cho Trình đọc dữ liệu blob trên bộ nhớ.
- Tải dữ liệu vào tập dữ liệu BigQuery.
- Truy vấn dữ liệu trong Ads Data Hub. Tìm hiểu về cách kết hợp dữ liệu của bên thứ nhất.
- Không bắt buộc: Lên lịch tải dữ liệu liên tục trong BigQuery.