Markdown

ビッグデータ技術 - Markdown

ビッグデータ技術とは、従来のデータベース管理システムでは扱いきれない大量・多種・高速のデータを効率的に処理するための技術群です。Hadoop、Spark、Kafka、Flinkなどの分散処理フレームワークを中心に、データの収集、保存、処理、分析、可視化を行う包括的なエコシステムを構成しています。これらの技術は、リアルタイム分析、機械学習、IoTデータ処理、ビジネスインテリジェンスなど、現代のデータ駆動型社会の基盤となっています。

ビッグデータ 分散処理 Hadoop Spark Kafka Flink データエンジニアリング ストリーム処理 バッチ処理
| code | slug | name | description | category | initialRelease | latency | license | processingType |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1 | apache-hadoop | Apache Hadoop | 分散ストレージとバッチ処理のためのオープンソースフレームワークです。 | 分散ストレージ・バッチ処理 | 2006 | 分〜時間単位 | Apache License 2.0 | バッチ処理 |
| 2 | apache-spark | Apache Spark | インメモリ計算による高速データ処理エンジンです。 | 汎用分散処理エンジン | 2014 | 秒単位 | Apache License 2.0 | バッチ・ストリーム処理(マイクロバッチ) |
| 3 | apache-kafka | Apache Kafka | 高スループットの分散ストリーミングプラットフォームです。 | メッセージング・ストリーミングプラットフォーム | 2011 | ミリ秒単位 | Apache License 2.0 | ストリーム処理(メッセージング) |
| 4 | apache-flink | Apache Flink | 真のストリーム処理を実現する分散処理エンジンです。 | ストリーム処理エンジン | 2015 | ミリ秒単位 | Apache License 2.0 | 真のストリーム処理 |
| 5 | apache-hive | Apache Hive | Hadoop上でSQLライクなクエリを実行するデータウェアハウスソフトウェアです。 | データウェアハウス | 2010 | 分〜時間単位 | Apache License 2.0 | バッチ処理 |
| 6 | apache-storm | Apache Storm | 分散リアルタイム計算システムです。 | ストリーム処理エンジン | 2011 | ミリ秒単位 | Apache License 2.0 | ストリーム処理 |
| 7 | apache-hbase | Apache HBase | Hadoop上で動作する分散型NoSQLデータベースです。 | NoSQLデータベース | 2010 | ミリ秒単位 | Apache License 2.0 | リアルタイム読み書き |
| 8 | apache-presto-trino | Apache Trino(旧PrestoSQL) | 大規模データの分散SQLクエリエンジンです。 | 分散SQLクエリエンジン | 2012 | 秒〜分単位 | Apache License 2.0 | インタラクティブクエリ |