Was ist der Unterschied zwischen Hadoop, Hive und AWS RedShift?


Antwort 1:

Hadoop ist ein Framework für verteiltes Computing (z. B. MapReduce) und Speicher (HDFS).

Hive ist Teil des Hadoop-Ökosystems und bietet eine SQL-ähnliche Schnittstelle zu Hadoop.

Redshift ist ein proprietäres Datenbanksystem von Amazon. Die Funktionalität ist vergleichbar mit Hive über Hadoop: Es fehlen jedoch viele Optionen. Obwohl es deutlich schneller zu sein scheint, beschrieben in den ersten Benchmarks.


Antwort 2:

Es ist nicht mehr wahr zu sagen, dass Hadoop nicht gut für SQL ist. Mit den dramatischen Verbesserungen in Hive, Impala und Lingual werden immer mehr der neueren Tools für den Zugriff auf Daten in Hadoop über SQL bereitgestellt. Mit zunehmender Dominanz von Spark verringern Tools wie Hive on Spark und Spark SQL die Vorteile, die Redshift in Bezug auf die Leistung bietet.


Antwort 3:

Alle drei Begriffe gehören zur Data Science. Hadoop: Hadoop ist ein Framework, das definiert, wie Big Data gespeichert und verarbeitet werden kann. Ursprünglich bestand es nur aus zwei Komponenten: HDFS (Speicherschicht) und MapReduce (Verarbeitungsschicht). Jetzt ist Hadoop zu einem großen Ökosystem geworden, in dem es viele andere fortschrittliche Frameworks für die Stapel- und Stream-Verarbeitung wie Spark, Storm, Kafka usw. gibt Hauptziel von Hadoop ist die Datenverarbeitung mit der Leistung einer verteilten Computerarchitektur.

Hive: Hive ist das SQL-ähnliche Tool, mit dem Data Analysts einfache Abfragen zu Daten erstellen, die in HDFS gespeichert sind. Dieses Tool wurde von Facebook entwickelt. Hive wurde eingeführt, um den Aufwand für das Schreiben von Java-basierten Programmen zum Abrufen verarbeiteter Daten, die in HDFS gespeichert sind, zu verringern.

AWS RedShift: AWS RedShift ist ein Cloud-Service auf einer AWS-Plattform, mit dem ein Unternehmen ein Cloud-basiertes Data Warehouse-System entwickeln kann. AWS RedShift kann Petabyte an Daten verarbeiten, ohne dass Infrastruktur, Software oder Plattform verwaltet werden müssen. Es ist ein PaaS, das für die Geschäftsanalyse von Daten nützlich ist.