Data Warehouse là gì?Data Warehouse có nghĩa là kho dữ liệu là một loại quản lý dữ liệu hệ thống được thiết kế để cho phép và hỗ trợ kinh doanh thông minh hoạt động BI, đặc biệt là phân tích. Data Warehouse chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu. Dữ liệu trong Data Warehouse thường được lấy từ nhiều nguồn như tệp nhật ký ứng dụng và ứng dụng giao dịch. Show Data Warehouse tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn. Khả năng phân tích Data Warehouse cho phép các tổ chức thu được những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để cải thiện việc ra quyết định. Theo thời gian, nó xây dựng một hồ sơ lịch sử có thể là vô giá đối với các nhà Data Science và nhà phân tích kinh doanh. Một Data Warehouse điển hình thường bao gồm các yếu tố sau:
Cơ sở dữ liệu hỗ trợ quyết định Data Warehouse được duy trì tách biệt với cơ sở dữ liệu hoạt động của tổ chức. Tuy nhiên, Data Warehouse không phải là một sản phẩm mà là một môi trường. Đây là một cấu trúc của một hệ thống thông tin cung cấp cho người dùng thông tin hỗ trợ quyết định hiện tại và quá khứ, cái mà khó truy cập hoặc hiện diện trong kho dữ liệu vận hành truyền thống. Data Warehouse là cốt lõi của hệ thống BI được xây dựng để phân tích và báo cáo dữ liệu. Bạn có biết rằng một cơ sở dữ liệu được thiết kế 3NF cho một hệ thống kiểm kê, nhiều cơ sở có các bảng liên quan với nhau. Ví dụ: Một báo cáo về thông tin hàng tồn kho hiện tại có thể bao gồm hơn 12 điều kiện tham gia. Điều này có thể nhanh chóng làm chậm thời gian phản hồi của truy vấn và báo cáo. Nhiệm vụ Data Warehouse cung cấp một thiết kế mới có thể giúp giảm thời gian phản hồi và giúp tăng cường hiệu suất của các truy vấn cho báo cáo và phân tích. Hệ thống Data Warehouse còn được gọi bằng tên sau:
Lợi ích của Data WarehouseData Warehouse mang lại lợi ích bao trùm và duy nhất là cho phép các tổ chức phân tích một lượng lớn dữ liệu biến thể và trích xuất giá trị đáng kể từ nó, cũng như lưu giữ hồ sơ lịch sử. Bốn đặc điểm độc đáo (được mô tả bởi nhà khoa học máy tính William Inmon, người được coi là cha đẻ của kho dữ liệu) cho phép các kho dữ liệu mang lại lợi ích bao trùm này là:
Một Data Warehouse được thiết kế tốt sẽ thực hiện các truy vấn rất nhanh chóng, cung cấp thông tin lượng dữ liệu cao và cung cấp đủ tính linh hoạt cho người dùng cuối hoặc giảm khối lượng dữ liệu để kiểm tra kỹ hơn nhằm đáp ứng nhiều nhu cầu khác nhau cho dù ở mức độ rất tốt, chi tiết. Kho dữ liệu đóng vai trò là nền tảng chức năng cho môi trường phần mềm BI trung gian cung cấp cho người dùng cuối các báo cáo, trang tổng quan và các giao diện khác. Data Warehouse hoạt động như thế nào?Data Warehouse hoạt động như một kho lưu trữ trung tâm nơi thông tin đến từ một hoặc nhiều nguồn dữ liệu. Dữ liệu chảy vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu liên quan khác. Dữ liệu có thể là/được:
Dữ liệu được xử lý, chuyển đổi và nhập để người dùng có thể truy cập dữ liệu đã xử lý trong Data Warehouse thông qua các công cụ Business Intelligence, SQL client và bảng tính. Data Warehouse hợp nhất thông tin đến từ các nguồn khác nhau vào một cơ sở dữ liệu toàn diện. Bằng cách hợp nhất tất cả các thông tin này ở một nơi, một tổ chức có thể phân tích khách hàng của mình một cách toàn diện hơn. Điều này giúp đảm bảo rằng nó đã xem xét tất cả các thông tin có sẵn. Data Warehouse làm cho khai thác dữ liệu là có thể làm được. Khai thác dữ liệu đang tìm kiếm các mẫu trong dữ liệu để có được doanh thu và lợi nhuận cao hơn. Các loại Data WarehouseBa loại Data Warehouse chính là: 1. Enterprise Data Warehouse (Data Warehouse doanh nghiệp)Data Warehouse doanh nghiệp hay còn gọi kho dữ liệu doanh nghiệp là một kho tập trung. Chức năng cung cấp dịch vụ hỗ trợ quyết định trên toàn doanh nghiệp. Ngoài ra cung cấp một cách tiếp cận thống nhất để tổ chức và đại diện dữ liệu. Và thêm nữa là cung cấp khả năng phân loại dữ liệu theo chủ đề và cấp quyền truy cập theo các bộ phận đó. 2. Operational Data Store ( Kho lưu trữ dữ liệu hoạt động)Kho lưu trữ dữ liệu hoạt động, còn được gọi là ODS, không có gì ngoài kho lưu trữ dữ liệu cần thiết khi cả Data Warehouse và hệ thống OLTP không hỗ trợ các tổ chức báo cáo nhu cầu. Trong ODS, kho dữ liệu được làm mới theo thời gian. Do đó, nó được ưa thích rộng rãi cho các hoạt động thường ngày như lưu trữ hồ sơ của nhân viên. 3. Data MartMột data mart là một tập hợp con của Data Warehouse, được thiết kế đặc biệt cho một ngành kinh doanh cụ thể, chẳng hạn như bán hàng, tài chính, bán hàng hoặc tài chính. Trong một data mart độc lập, dữ liệu có thể thu thập trực tiếp từ các nguồn. Các thành phần Data WarehouseBốn thành phần của Data Warehouse là: Quản lý phụ tải: Quản lý phụ tải còn được gọi là quản lý phía cầu. Nó thực hiện với tất cả các hoạt động liên quan đến việc trích xuất và tải dữ liệu vào kho. Các hoạt động này bao gồm các phép biến đổi để chuẩn bị dữ liệu để nhập vào kho dữ liệu. Quản lý warehouse: Quản lý warehouse thực hiện các hoạt động liên quan đến việc quản lý dữ liệu trong kho, được thực hiện các hoạt động như phân tích dữ liệu để đảm bảo tính nhất quán, tạo các chỉ mục và khung nhìn, tạo ra sự không chuẩn hóa và tổng hợp, chuyển đổi và hợp nhất dữ liệu nguồn và lưu trữ và dữ liệu. Trình quản lý truy vấn: Trình quản lý truy vấn còn được gọi là thành phần phụ trợ. Nó thực hiện tất cả các hoạt động liên quan đến việc quản lý các truy vấn của người dùng. Các hoạt động của các thành phần Data Warehouse này là các truy vấn trực tiếp đến các bảng thích hợp để lên lịch thực hiện các truy vấn. Công cụ truy cập của người dùng cuối: Công cụ này được phân loại thành năm nhóm khác nhau như:
Ai nên sử dụng Data Warehouse?Data Warehouse là cần thiết cho tất cả các loại người dùng như:
Kiến trúc Data WarehouseKiến trúc của một Data Warehouse được xác định bởi các nhu cầu cụ thể của tổ chức. Các kiến trúc phổ biến bao gồm: Simple: Tất cả các Data Warehouse đều có chung một thiết kế cơ bản, trong đó siêu dữ liệu, dữ liệu tóm tắt và dữ liệu thô được lưu trữ trong kho lưu trữ trung tâm của kho. Kho lưu trữ được cung cấp bởi các nguồn dữ liệu ở một đầu và được người dùng cuối truy cập để phân tích, báo cáo và khai thác ở đầu kia. Simple with a staging area: Dữ liệu hoạt động phải được làm sạch và xử lý trước khi đưa vào kho. Mặc dù điều này có thể được thực hiện theo chương trình, nhiều kho dữ liệu bổ sung thêm một vùng phân bố cho dữ liệu trước khi dữ liệu vào kho, để đơn giản hóa việc chuẩn bị dữ liệu. Hub and spoke: Việc thêm các kho dữ liệu giữa kho lưu trữ trung tâm và người dùng cuối cho phép một tổ chức tùy chỉnh kho dữ liệu của mình để phục vụ các ngành kinh doanh khác nhau. Khi dữ liệu đã sẵn sàng để sử dụng, nó sẽ được chuyển đến data mart thích hợp. Sandboxes: Sandboxes là các khu vực riêng tư, bảo mật, an toàn cho phép các công ty khám phá nhanh chóng và không chính thức các bộ dữ liệu mới hoặc các cách phân tích dữ liệu mà không cần phải tuân thủ hoặc tuân thủ các quy tắc và giao thức chính thức của kho dữ liệu. Sự phát triển của Data WarehouseKhi các kho dữ liệu lần đầu tiên xuất hiện vào cuối những năm 1980, mục đích của chúng là giúp dữ liệu chuyển từ các hệ thống vận hành sang các hệ thống hỗ trợ quyết định DSS. Những kho dữ liệu ban đầu này đòi hỏi một lượng lớn dự phòng. Hầu hết các tổ chức có nhiều môi trường DSS phục vụ những người dùng khác nhau. Mặc dù các môi trường DSS sử dụng nhiều dữ liệu giống nhau, việc thu thập, làm sạch và tích hợp dữ liệu thường được sao chép cho từng môi trường. Khi các kho dữ liệu trở nên hiệu quả hơn, chúng đã phát triển từ các kho thông tin hỗ trợ nền tảng BI truyền thống thành các cơ sở hạ tầng phân tích rộng rãi hỗ trợ nhiều loại ứng dụng, chẳng hạn như phân tích hoạt động và quản lý hiệu suất. Việc lặp lại kho dữ liệu đã tiến triển theo thời gian để mang lại giá trị gia tăng gia tăng cho doanh nghiệp. Ngày nay, AI và máy học đang biến đổi hầu hết mọi ngành, dịch vụ và tài sản doanh nghiệp và Data Warehouse cũng không ngoại lệ. Việc mở rộng dữ liệu lớn và ứng dụng các công nghệ kỹ thuật số mới đang thúc đẩy sự thay đổi về các yêu cầu và khả năng của kho dữ liệu. Các kho dữ liệu độc lập là bước đi mới nhất trong quá trình nâng cấp này, cung cấp các doanh nghiệp khả năng trích xuất giá trị lớn hơn từ dữ liệu trong khi giảm chi phí và cải thiện độ tin cậy và hiệu suất kho dữ liệu. Cloud Data Warehouse là gì?Cloud Data Warehouse sử dụng đám mây để nhập và lưu trữ dữ liệu từ các nguồn dữ liệu khác nhau. Các kho dữ liệu ban đầu được xây dựng với các máy chủ tại chỗ. Các kho dữ liệu tại chỗ này tiếp tục có nhiều lợi thế ngày nay. Trong nhiều trường hợp, chúng có thể cải thiện khả năng quản trị, bảo mật, chủ quyền dữ liệu và độ trễ tốt hơn. Tuy nhiên, kho dữ liệu tại chỗ không co giãn bằng và chúng yêu cầu dự báo phức tạp để xác định cách mở rộng kho dữ liệu cho các nhu cầu trong tương lai. Việc quản lý các kho dữ liệu này cũng có thể rất phức tạp. Mặt khác, một số ưu điểm của Cloud Data Warehouse bao gồm:
Các kho dữ liệu đám mây tốt nhất được quản lý hoàn toàn, đảm bảo rằng ngay cả những người mới bắt đầu cũng có thể tạo và sử dụng kho dữ liệu chỉ với một vài cú nhấp chuột. Một cách dễ dàng để bắt đầu di chuyển sang Cloud Data Warehouse là chạy kho dữ liệu đám mây của bạn tại chỗ, đằng sau tường lửa trung tâm dữ liệu tuân thủ các yêu cầu về chủ quyền và bảo mật dữ liệu. Ngoài ra, hầu hết các kho dữ liệu đám mây đều tuân theo mô hình và trả tiền khi sử dụng, giúp tiết kiệm thêm chi phí cho khách hàng. Modern Data Warehouse là gì?Cho dù họ là thành viên của nhóm CNTT, kỹ thuật dữ liệu, phân tích kinh doanh hay khoa học dữ liệu, những người dùng khác nhau trong tổ chức có nhu cầu khác nhau về kho dữ liệu. Một kiến trúc dữ liệu hiện đại giải quyết những nhu cầu khác nhau bằng cách cung cấp một cách để quản lý tất cả các loại dữ liệu, khối lượng công việc, và phân tích. Bao gồm các mẫu kiến trúc với các thành phần cần thiết được tích hợp để làm việc cùng nhau theo các phương pháp hay nhất trong ngành. Modern Data Warehouse bao gồm:
Một kho dữ liệu hiện đại có thể hợp lý hóa quy trình công việc dữ liệu một cách hiệu quả theo cách mà các kho khác không làm được. Điều này có nghĩa là tất cả mọi người, từ các nhà phân tích và kỹ sư dữ liệu đến các nhà khoa học dữ liệu và nhóm CNTT, có thể thực hiện công việc hiệu quả hơn và theo đuổi công việc đổi mới đưa tổ chức tiến lên mà không có sự chậm trễ và phức tạp. |