TOML
ビッグデータ技術 - TOML
ビッグデータ技術とは、従来のデータベース管理システムでは扱いきれない大量・多種・高速のデータを効率的に処理するための技術群です。Hadoop、Spark、Kafka、Flinkなどの分散処理フレームワークを中心に、データの収集、保存、処理、分析、可視化を行う包括的なエコシステムを構成しています。これらの技術は、リアルタイム分析、機械学習、IoTデータ処理、ビジネスインテリジェンスなど、現代のデータ駆動型社会の基盤となっています。
ビッグデータ
分散処理
Hadoop
Spark
Kafka
Flink
データエンジニアリング
ストリーム処理
バッチ処理
[[items]]
code = "1"
slug = "apache-hadoop"
name = "Apache Hadoop"
description = "分散ストレージとバッチ処理のためのオープンソースフレームワークです。"
category = "分散ストレージ・バッチ処理"
initialRelease = "2006"
latency = "分〜時間単位"
license = "Apache License 2.0"
processingType = "バッチ処理"
[[items]]
code = "2"
slug = "apache-spark"
name = "Apache Spark"
description = "インメモリ計算による高速データ処理エンジンです。"
category = "汎用分散処理エンジン"
initialRelease = "2014"
latency = "秒単位"
license = "Apache License 2.0"
processingType = "バッチ・ストリーム処理(マイクロバッチ)"
[[items]]
code = "3"
slug = "apache-kafka"
name = "Apache Kafka"
description = "高スループットの分散ストリーミングプラットフォームです。"
category = "メッセージング・ストリーミングプラットフォーム"
initialRelease = "2011"
latency = "ミリ秒単位"
license = "Apache License 2.0"
processingType = "ストリーム処理(メッセージング)"
[[items]]
code = "4"
slug = "apache-flink"
name = "Apache Flink"
description = "真のストリーム処理を実現する分散処理エンジンです。"
category = "ストリーム処理エンジン"
initialRelease = "2015"
latency = "ミリ秒単位"
license = "Apache License 2.0"
processingType = "真のストリーム処理"
[[items]]
code = "5"
slug = "apache-hive"
name = "Apache Hive"
description = "Hadoop上でSQLライクなクエリを実行するデータウェアハウスソフトウェアです。"
category = "データウェアハウス"
initialRelease = "2010"
latency = "分〜時間単位"
license = "Apache License 2.0"
processingType = "バッチ処理"
[[items]]
code = "6"
slug = "apache-storm"
name = "Apache Storm"
description = "分散リアルタイム計算システムです。"
category = "ストリーム処理エンジン"
initialRelease = "2011"
latency = "ミリ秒単位"
license = "Apache License 2.0"
processingType = "ストリーム処理"
[[items]]
code = "7"
slug = "apache-hbase"
name = "Apache HBase"
description = "Hadoop上で動作する分散型NoSQLデータベースです。"
category = "NoSQLデータベース"
initialRelease = "2010"
latency = "ミリ秒単位"
license = "Apache License 2.0"
processingType = "リアルタイム読み書き"
[[items]]
code = "8"
slug = "apache-presto-trino"
name = "Apache Trino(旧PrestoSQL)"
description = "大規模データの分散SQLクエリエンジンです。"
category = "分散SQLクエリエンジン"
initialRelease = "2012"
latency = "秒〜分単位"
license = "Apache License 2.0"
processingType = "インタラクティブクエリ"