TSV

ビッグデータ技術 - TSV

ビッグデータ技術とは、従来のデータベース管理システムでは扱いきれない大量・多種・高速のデータを効率的に処理するための技術群です。Hadoop、Spark、Kafka、Flinkなどの分散処理フレームワークを中心に、データの収集、保存、処理、分析、可視化を行う包括的なエコシステムを構成しています。これらの技術は、リアルタイム分析、機械学習、IoTデータ処理、ビジネスインテリジェンスなど、現代のデータ駆動型社会の基盤となっています。

ビッグデータ 分散処理 Hadoop Spark Kafka Flink データエンジニアリング ストリーム処理 バッチ処理
code	slug	name	description	category	initialRelease	latency	license	processingType
1	apache-hadoop	Apache Hadoop	分散ストレージとバッチ処理のためのオープンソースフレームワークです。	分散ストレージ・バッチ処理	2006	分〜時間単位	Apache License 2.0	バッチ処理
2	apache-spark	Apache Spark	インメモリ計算による高速データ処理エンジンです。	汎用分散処理エンジン	2014	秒単位	Apache License 2.0	バッチ・ストリーム処理(マイクロバッチ)
3	apache-kafka	Apache Kafka	高スループットの分散ストリーミングプラットフォームです。	メッセージング・ストリーミングプラットフォーム	2011	ミリ秒単位	Apache License 2.0	ストリーム処理(メッセージング)
4	apache-flink	Apache Flink	真のストリーム処理を実現する分散処理エンジンです。	ストリーム処理エンジン	2015	ミリ秒単位	Apache License 2.0	真のストリーム処理
5	apache-hive	Apache Hive	Hadoop上でSQLライクなクエリを実行するデータウェアハウスソフトウェアです。	データウェアハウス	2010	分〜時間単位	Apache License 2.0	バッチ処理
6	apache-storm	Apache Storm	分散リアルタイム計算システムです。	ストリーム処理エンジン	2011	ミリ秒単位	Apache License 2.0	ストリーム処理
7	apache-hbase	Apache HBase	Hadoop上で動作する分散型NoSQLデータベースです。	NoSQLデータベース	2010	ミリ秒単位	Apache License 2.0	リアルタイム読み書き
8	apache-presto-trino	Apache Trino(旧PrestoSQL)	大規模データの分散SQLクエリエンジンです。	分散SQLクエリエンジン	2012	秒〜分単位	Apache License 2.0	インタラクティブクエリ