TSV
ビッグデータ技術 - TSV
ビッグデータ技術とは、従来のデータベース管理システムでは扱いきれない大量・多種・高速のデータを効率的に処理するための技術群です。Hadoop、Spark、Kafka、Flinkなどの分散処理フレームワークを中心に、データの収集、保存、処理、分析、可視化を行う包括的なエコシステムを構成しています。これらの技術は、リアルタイム分析、機械学習、IoTデータ処理、ビジネスインテリジェンスなど、現代のデータ駆動型社会の基盤となっています。
ビッグデータ
分散処理
Hadoop
Spark
Kafka
Flink
データエンジニアリング
ストリーム処理
バッチ処理
code slug name description category initialRelease latency license processingType
1 apache-hadoop Apache Hadoop 分散ストレージとバッチ処理のためのオープンソースフレームワークです。 分散ストレージ・バッチ処理 2006 分〜時間単位 Apache License 2.0 バッチ処理
2 apache-spark Apache Spark インメモリ計算による高速データ処理エンジンです。 汎用分散処理エンジン 2014 秒単位 Apache License 2.0 バッチ・ストリーム処理(マイクロバッチ)
3 apache-kafka Apache Kafka 高スループットの分散ストリーミングプラットフォームです。 メッセージング・ストリーミングプラットフォーム 2011 ミリ秒単位 Apache License 2.0 ストリーム処理(メッセージング)
4 apache-flink Apache Flink 真のストリーム処理を実現する分散処理エンジンです。 ストリーム処理エンジン 2015 ミリ秒単位 Apache License 2.0 真のストリーム処理
5 apache-hive Apache Hive Hadoop上でSQLライクなクエリを実行するデータウェアハウスソフトウェアです。 データウェアハウス 2010 分〜時間単位 Apache License 2.0 バッチ処理
6 apache-storm Apache Storm 分散リアルタイム計算システムです。 ストリーム処理エンジン 2011 ミリ秒単位 Apache License 2.0 ストリーム処理
7 apache-hbase Apache HBase Hadoop上で動作する分散型NoSQLデータベースです。 NoSQLデータベース 2010 ミリ秒単位 Apache License 2.0 リアルタイム読み書き
8 apache-presto-trino Apache Trino(旧PrestoSQL) 大規模データの分散SQLクエリエンジンです。 分散SQLクエリエンジン 2012 秒〜分単位 Apache License 2.0 インタラクティブクエリ