CSV
ビッグデータ技術 - CSV
ビッグデータ技術とは、従来のデータベース管理システムでは扱いきれない大量・多種・高速のデータを効率的に処理するための技術群です。Hadoop、Spark、Kafka、Flinkなどの分散処理フレームワークを中心に、データの収集、保存、処理、分析、可視化を行う包括的なエコシステムを構成しています。これらの技術は、リアルタイム分析、機械学習、IoTデータ処理、ビジネスインテリジェンスなど、現代のデータ駆動型社会の基盤となっています。
ビッグデータ
分散処理
Hadoop
Spark
Kafka
Flink
データエンジニアリング
ストリーム処理
バッチ処理
code,slug,name,description,category,initialRelease,latency,license,processingType
1,apache-hadoop,Apache Hadoop,分散ストレージとバッチ処理のためのオープンソースフレームワークです。,分散ストレージ・バッチ処理,2006,分〜時間単位,Apache License 2.0,バッチ処理
2,apache-spark,Apache Spark,インメモリ計算による高速データ処理エンジンです。,汎用分散処理エンジン,2014,秒単位,Apache License 2.0,バッチ・ストリーム処理(マイクロバッチ)
3,apache-kafka,Apache Kafka,高スループットの分散ストリーミングプラットフォームです。,メッセージング・ストリーミングプラットフォーム,2011,ミリ秒単位,Apache License 2.0,ストリーム処理(メッセージング)
4,apache-flink,Apache Flink,真のストリーム処理を実現する分散処理エンジンです。,ストリーム処理エンジン,2015,ミリ秒単位,Apache License 2.0,真のストリーム処理
5,apache-hive,Apache Hive,Hadoop上でSQLライクなクエリを実行するデータウェアハウスソフトウェアです。,データウェアハウス,2010,分〜時間単位,Apache License 2.0,バッチ処理
6,apache-storm,Apache Storm,分散リアルタイム計算システムです。,ストリーム処理エンジン,2011,ミリ秒単位,Apache License 2.0,ストリーム処理
7,apache-hbase,Apache HBase,Hadoop上で動作する分散型NoSQLデータベースです。,NoSQLデータベース,2010,ミリ秒単位,Apache License 2.0,リアルタイム読み書き
8,apache-presto-trino,Apache Trino(旧PrestoSQL),大規模データの分散SQLクエリエンジンです。,分散SQLクエリエンジン,2012,秒〜分単位,Apache License 2.0,インタラクティブクエリ