Dremio là gì

Mục lục[Ẩn giấu][Chỉ]

  • Giới thiệu về Data Lakehouse
  • Đặc điểm của Data Lakehouse
  • 5 công cụ Data Lakehouse hàng đầu+-
    • Bảng dữ liệu
    • Ahana
    • Dremio
    • Snowflake
    • Oracle 
  • Kết luận

Các hồ dữ liệu kết hợp kho dữ liệu và các khái niệm về hồ dữ liệu cho các doanh nghiệp.

Những công cụ này cho phép bạn xây dựng các giải pháp lưu trữ dữ liệu hiệu quả về chi phí bằng cách kết hợp khả năng quản lý của các hồ dữ liệu với kiến ​​trúc dữ liệu được tìm thấy trong kho dữ liệu.

Ngoài ra, việc di chuyển và dư thừa dữ liệu được giảm bớt, thời gian quản lý ít hơn và các thủ tục quản trị dữ liệu và lược đồ ngắn hơn thực sự trở thành hiện thực.

Một data lakehouse có nhiều ưu điểm so với một hệ thống lưu trữ có nhiều giải pháp.

Các công cụ này vẫn được các nhà khoa học dữ liệu sử dụng để nâng cao hiểu biết của họ về các quy trình học máy và trí tuệ kinh doanh.

Bài viết này sẽ giới thiệu nhanh về data lakehouse, các khả năng của nó và các công cụ có sẵn.

Giới thiệu về Data Lakehouse

Một loại kiến ​​trúc dữ liệu mới được gọi là “data lakehouse”Kết hợp một hồ dữ liệu và một kho dữ liệu để giải quyết những điểm yếu của từng cái một cách độc lập.

Hệ thống Lakehouse, giống như các hồ dữ liệu, sử dụng lưu trữ chi phí thấp để giữ một lượng lớn dữ liệu ở dạng ban đầu.

Việc bổ sung một lớp siêu dữ liệu trên đầu cửa hàng cũng cung cấp cấu trúc dữ liệu và trao quyền cho các công cụ quản lý dữ liệu tương tự như các công cụ được tìm thấy trong kho dữ liệu.

Nó chứa một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc thu được từ các ứng dụng, hệ thống và thiết bị kinh doanh khác nhau được sử dụng trong toàn doanh nghiệp.

Dremio là gì

Kết quả là, không giống như các hồ dữ liệu, hệ thống Lakehouse có thể quản lý và tối ưu hóa dữ liệu đó cho hiệu suất SQL.

Nó cũng có khả năng lưu trữ và xử lý lượng lớn dữ liệu đa dạng với chi phí rẻ hơn so với kho dữ liệu.

Một cơ sở dữ liệu hữu ích khi bạn cần thực hiện bất kỳ truy cập dữ liệu hoặc phân tích nào đối với bất kỳ dữ liệu nào nhưng không chắc chắn về dữ liệu hoặc phân tích được đề xuất.

Một kiến ​​trúc nhà ven hồ sẽ hoạt động khá tốt nếu hiệu suất không phải là mối quan tâm hàng đầu.

Điều đó không có nghĩa là bạn nên đặt toàn bộ cấu trúc của mình trên một ngôi nhà hồ.

Có thể tìm thấy thêm thông tin về cách chọn một hồ dữ liệu, kho dữ liệu, kho dữ liệu hoặc cơ sở dữ liệu phân tích chuyên biệt cho từng trường hợp sử dụng ở đây.

Đặc điểm của Data Lakehouse

  • Đọc và ghi dữ liệu đồng thời
  • Khả năng thích ứng và khả năng mở rộng
  • Hỗ trợ lược đồ với các công cụ quản trị dữ liệu
  • Đọc và ghi dữ liệu đồng thời
  • Bộ nhớ có giá cả phải chăng
  • Tất cả các loại dữ liệu và định dạng tệp đều được hỗ trợ.
  • Quyền truy cập vào khoa học dữ liệu và các công cụ học máy được tối ưu hóa
  • Nhóm dữ liệu của bạn sẽ được hưởng lợi khi chỉ có quyền truy cập vào một hệ thống để chuyển tải khối lượng công việc qua hệ thống đó nhanh chóng và chính xác hơn.
  • Khả năng thời gian thực cho các sáng kiến ​​trong khoa học dữ liệu, học máy và phân tích

Bảng dữ liệu

Databricks, được thành lập bởi người đầu tiên phát triển Apache Spark và làm cho nó mã nguồn mở, cung cấp dịch vụ Apache Spark được quản lý và được định vị như một nền tảng cho các hồ dữ liệu.

Các thành phần công cụ data lake, delta lake và delta của kiến ​​trúc Databricks lakehouse cho phép các trường hợp sử dụng máy học, khoa học dữ liệu và trí tuệ kinh doanh.

Hồ dữ liệu là một kho lưu trữ đám mây công cộng.

Dremio là gì

Với hỗ trợ quản lý siêu dữ liệu, xử lý dữ liệu hàng loạt và luồng cho tập dữ liệu đa cấu trúc, khám phá dữ liệu, kiểm soát truy cập an toàn và phân tích SQL.

Databricks cung cấp hầu hết các chức năng lưu trữ dữ liệu mà người ta có thể mong đợi thấy trong nền tảng data lakehouse.

Databricks gần đây đã tiết lộ Trình tải tự động, tự động hóa ETL và đầu vào dữ liệu, đồng thời tận dụng lấy mẫu dữ liệu để suy ra lược đồ cho nhiều loại dữ liệu khác nhau, nhằm cung cấp các thành phần thiết yếu của chiến lược lưu trữ hồ dữ liệu.

Ngoài ra, người dùng có thể xây dựng các đường ống ETL giữa hồ dữ liệu đám mây công cộng của họ và Hồ Delta bằng cách sử dụng Delta Live Tables.

Trên lý thuyết, Databricks dường như có tất cả các lợi thế, nhưng việc thiết lập giải pháp và tạo đường ống dẫn dữ liệu của nó đòi hỏi rất nhiều lao động của con người từ các nhà phát triển có tay nghề cao.

Ở quy mô lớn, câu trả lời cũng trở nên phức tạp hơn. Nó phức tạp hơn tưởng tượng.

Ahana

Hồ dữ liệu là một vị trí trung tâm, duy nhất, nơi bạn có thể lưu trữ bất kỳ loại dữ liệu nào bạn chọn trên quy mô lớn, bao gồm cả dữ liệu có cấu trúc và phi cấu trúc. AWS S3, Microsoft Azure và Google Cloud Storage là ba hồ dữ liệu phổ biến.

Các hồ dữ liệu cực kỳ được yêu thích vì chúng có giá cả rất phải chăng và dễ sử dụng; về cơ bản bạn có thể lưu trữ bao nhiêu loại dữ liệu tùy thích với số tiền rất thấp.

Nhưng hồ dữ liệu không cung cấp các công cụ tích hợp sẵn như phân tích, truy vấn, v.v.

Bạn cần một công cụ truy vấn và danh mục dữ liệu trên đầu hồ dữ liệu (nơi Ahana Cloud xuất hiện) để truy vấn dữ liệu của bạn và sử dụng nó.

Dremio là gì

Với những ưu điểm tốt nhất của cả Kho dữ liệu và Hồ dữ liệu, một thiết kế kho dữ liệu mới đã được phát triển.

Điều này cho thấy rằng nó minh bạch, dễ thích ứng, có giá cả / hiệu suất tốt, quy mô như một hồ dữ liệu hỗ trợ các giao dịch và có mức độ bảo mật cao tương đương với một kho dữ liệu.

Công cụ truy vấn SQL hiệu suất cao của bạn là bộ não đằng sau Data Lakehouse. Do đó, bạn có thể thực hiện phân tích hiệu suất cao trên dữ liệu hồ dữ liệu của mình.

Ahana Cloud cho Presto là SaaS cho Presto trên AWS, giúp bắt đầu sử dụng Presto trên đám mây vô cùng đơn giản.

Đối với hồ dữ liệu dựa trên S3 của bạn, Ahana đã có danh mục dữ liệu và bộ nhớ đệm tích hợp sẵn. Ahana cung cấp cho bạn các tính năng của Presto mà không yêu cầu bạn xử lý chi phí vì nó thực hiện nó trong nội bộ.

AWS Lake Formation, Apache Hudi và Delta Lake chỉ là một vài trong số các trình quản lý giao dịch là một phần của ngăn xếp và tích hợp với nó.

Dremio

Các tổ chức tìm cách đánh giá một cách nhanh chóng, đơn giản và hiệu quả một lượng lớn dữ liệu đang gia tăng nhanh chóng.

Dremio tin rằng một kho dữ liệu mở kết hợp lợi ích của các hồ dữ liệu và kho dữ liệu trên cơ sở mở là cách tiếp cận tốt nhất để thực hiện điều này.

Nền tảng Lakehouse của Dremio cung cấp trải nghiệm hoạt động cho tất cả mọi người, với giao diện người dùng dễ dàng cho phép người dùng hoàn thành các phân tích trong một phần nhỏ thời gian.

Dremio là gì

Dremio Cloud, một nền tảng lưu trữ dữ liệu được quản lý hoàn toàn và ra mắt hai dịch vụ mới: Dremio Sonar, công cụ truy vấn nhà hồ và Dremio Arctic, một siêu lưu trữ thông minh cho Apache Iceberg mang lại trải nghiệm giống Git độc đáo cho nhà hồ.

Tất cả khối lượng công việc SQL của một tổ chức có thể được chạy trên nền tảng Dremio Cloud không ma sát, có thể mở rộng vô tận, nền tảng này cũng tự động hóa các tác vụ quản lý dữ liệu.

Nó được xây dựng cho SQL, cung cấp trải nghiệm giống như Git, là mã nguồn mở và luôn miễn phí.

Họ đã tạo ra nó để trở thành nền tảng Lakehouse mà các nhóm dữ liệu yêu thích.

Sử dụng các định dạng bảng và tệp mã nguồn mở như Apache Iceberg và Apache Parquet, dữ liệu của bạn luôn tồn tại trong kho lưu trữ dữ liệu của riêng bạn khi sử dụng Dremio Cloud.

Những đổi mới trong tương lai có thể dễ dàng được áp dụng và động cơ phù hợp có thể được chọn dựa trên khối lượng công việc của bạn.

Snowflake

Snowflake là một nền tảng phân tích và dữ liệu đám mây có thể đáp ứng nhu cầu của các hồ dữ liệu và kho.

Nó bắt đầu như một hệ thống kho dữ liệu được xây dựng trên cơ sở hạ tầng đám mây.

Nền tảng này bao gồm một kho lưu trữ tập trung nằm trên bộ nhớ đám mây công cộng từ AWS, Microsoft Azure hoặc Google Cloud Platform (GCP).

Theo sau đó là một lớp tính toán đa cụm, nơi người dùng có thể khởi chạy một kho dữ liệu ảo và thực hiện các truy vấn SQL đối với việc lưu trữ dữ liệu của họ.

Kiến trúc cho phép tách các tài nguyên lưu trữ và tính toán, cho phép các tổ chức mở rộng quy mô cả hai một cách độc lập khi cần thiết.

Dremio là gì

Cuối cùng, Snowflake cung cấp một lớp dịch vụ với phân loại siêu dữ liệu, quản lý tài nguyên, quản trị dữ liệu, giao dịch và các tính năng khác.

Các trình kết nối công cụ BI, quản lý siêu dữ liệu, kiểm soát truy cập và truy vấn SQL chỉ là một vài chức năng của kho dữ liệu mà nền tảng này cung cấp vượt trội.

Snowflake, tuy nhiên, bị hạn chế đối với một công cụ truy vấn dựa trên SQL quan hệ.

Do đó, việc quản trị trở nên đơn giản hơn nhưng kém thích ứng hơn và tầm nhìn về hồ dữ liệu đa mô hình không được thực hiện.

Ngoài ra, trước khi dữ liệu từ lưu trữ đám mây có thể được tìm kiếm hoặc phân tích, Snowflake yêu cầu các doanh nghiệp tải nó vào một lớp lưu trữ tập trung.

Quy trình tổng hợp dữ liệu thủ công yêu cầu ETL trước, cung cấp và định dạng dữ liệu trước khi nó có thể được kiểm tra. Mở rộng quy trình thủ công này khiến họ bực bội.

Một lựa chọn khác có vẻ phù hợp trên giấy tờ nhưng trên thực tế lại đi chệch khỏi nguyên tắc data lake của việc nhập dữ liệu đơn giản là data lakehouse của Snowflake.

Oracle 

Kiến trúc mở, hiện đại được gọi là “data lakehouse” giúp bạn có thể lưu trữ, hiểu và phân tích tất cả dữ liệu của mình.

Độ rộng và tính linh hoạt của các giải pháp hồ dữ liệu nguồn mở được yêu thích nhất được kết hợp với sức mạnh và độ sâu của kho dữ liệu.

Các khuôn khổ AI mới nhất và các dịch vụ AI dựng sẵn có thể được sử dụng với kho dữ liệu trên Cơ sở hạ tầng đám mây Oracle (OCI).

Dremio là gì

Có thể làm việc với các loại dữ liệu bổ sung trong khi sử dụng một hồ dữ liệu nguồn mở. Nhưng thời gian và nỗ lực cần thiết để quản lý nó có thể là một nhược điểm dai dẳng.

OCI cung cấp các dịch vụ Lakehouse mã nguồn mở được quản lý hoàn toàn với mức giá thấp hơn và ít quản lý hơn, cho phép bạn dự đoán chi phí hoạt động thấp hơn, khả năng mở rộng và bảo mật tốt hơn cũng như khả năng hợp nhất tất cả dữ liệu hiện có của bạn ở một vị trí.

Một nhà chứa dữ liệu sẽ làm tăng giá trị của các kho và siêu thị dữ liệu, những thứ cần thiết cho các doanh nghiệp thành công.

Dữ liệu có thể được truy xuất bằng cách sử dụng một Lakehouse từ một số vị trí chỉ với một truy vấn SQL.

Các chương trình và công cụ hiện có nhận được quyền truy cập minh bạch vào tất cả dữ liệu mà không yêu cầu điều chỉnh hoặc đạt được các kỹ năng mới.

Kết luận

Sự ra đời của các giải pháp data lakehouse phản ánh xu hướng lớn hơn trong dữ liệu lớn, đó là tích hợp phân tích và lưu trữ dữ liệu trong các nền tảng dữ liệu thống nhất để tối đa hóa giá trị kinh doanh từ dữ liệu đồng thời giảm thời gian, chi phí và độ phức tạp của việc khai thác giá trị.

Các nền tảng bao gồm Databricks, Snowflake, Ahana, Dremio và Oracle đều được liên kết với ý tưởng về một “data lakehouse”, nhưng chúng đều có một tập hợp các tính năng độc đáo và có xu hướng hoạt động giống một kho dữ liệu hơn là một data lake thực sự. nói chung.

Khi một giải pháp được tiếp thị dưới dạng “data lakehouse”, các doanh nghiệp nên thận trọng với ý nghĩa thực sự của nó.

Các doanh nghiệp cần phải nhìn xa hơn biệt ngữ tiếp thị như “data lakehouse” và thay vào đó xem xét các tính năng của từng nền tảng để chọn ra nền tảng dữ liệu tốt nhất sẽ mở rộng với doanh nghiệp của họ trong tương lai.

Dremio là gì