AWS DEA実践シリーズ② リアルタイム分析サービス | Kinesis Data Streams、Data Firehose、OpenSearch
AWSのデータ関連サービスを実戦形式で解説した、社内での「AWS DEA勉強会」から、AWSのデータエンジニアリング領域で重要な「リアルタイム分析」をテーマに、Kinesis Data Streams、Kinesis Data Firehose、OpenSearch Serviceについて詳しく解説します。サービス概要に加え、DEAの問題をベースにしたユースケースをご紹介します。
AWS DEAシリーズのすべての記事はこちらから
リアルタイム分析の重要性
近年、ECサイトやIoT、オンラインサービスでは「今まさに発生しているデータ」を即時に分析・可視化するニーズが高まっています。たとえば、航空券の販売やキャンペーン時にアクセスが集中した際のエラー検知や、IoTセンサーからの異常値検出など、リアルタイムでの状況把握はサービス品質向上やトラブル早期発見に不可欠です。
AWSには、こうしたリアルタイムデータの取り込み・加工・検索・可視化を支えるサービスが用意されています。ここでは、Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon OpenSearch Service の3つを中心にご紹介します。
Amazon Kinesis Data Streams | ストリーミングサービス
Amazon Kinesis Data Streamsは、大規模なリアルタイムデータを高スループットで取り込むためのストリーミングサービスです。数百万件/秒のデータを低遅延で受け取り、後続の処理や分析基盤へと流す“データパイプラインの起点”となります。
<主な特徴>
- リアルタイム性:データ発生から数秒以内にストリームへ到達
- スケーラビリティ:シャード単位でスループットを柔軟に拡張
- 耐障害性:複数AZに自動レプリケーション
- 柔軟な消費:複数のコンシューマ(Lambda、EC2、Firehose等)から同時にデータ取得が可能
- 保持期間選択:デフォルト24時間~最大7日間までストリームデータを保持
<代表的なユースケース>
- ECサイトのアクセスログやイベントデータの即時収集
- IoTセンサーやデバイスからの連続データの取り込み
- アプリケーションのリアルタイムモニタリング
Amazon Data Firehose | 転送・バッファリングサービス
Amazon Data Firehoseは、ストリーミングデータを自動的に保存先(S3、OpenSearch、Redshiftなど)へ転送・バッファリングするサービスです。バッファーの集約処理やエラー時の再送処理をフルマネージドで運用できるのが大きな特徴です。
<主な特徴>
- 自動転送:データを指定先(S3、OpenSearch、Redshift、HTTPエンドポイント等)へ自動で転送
- バッファリング・バッチ処理:一定量・一定時間ごとにデータをまとめて転送し、効率化
- データ変換:Lambda関数と連携し、転送前にデータ加工や整形も可能
- スケーラビリティ:流量増加時も自動で処理能力を拡張
- 運用負荷の低減:サーバーレスでインフラ管理不要
<代表的なユースケース>
- アクセスログやセンサーデータをS3に自動蓄積
- ストリームデータのOpenSearch Serviceへの即時転送・可視化
- データウェアハウス(Redshift)へのリアルタイムデータロード
Amazon OpenSearch Service | 検索&分析エンジン
Amazon OpenSearch Serviceは、大量データの全文検索・集計・可視化を行うマネージド型検索&分析エンジンです。Elasticsearch互換のエンジンをベースに、ログやイベントデータの高速検索やダッシュボード化を実現します。
<主な特徴>
- フルマネージド:クラスタ運用・スケーリング・セキュリティ対策をAWSが自動管理
- 高速検索・集計:大量データでも分散処理で高速レスポンス
- Kibana/ダッシュボード:直感的な可視化・モニタリングが可能(OpenSearch Dashboards)
- 多様な連携:FirehoseやLambda、Kinesis等からのデータ取り込みに対応
- セキュリティと可用性:VPCサポート、暗号化、認証認可、AZ冗長構成
<代表的なユースケース>
- アプリケーションやシステムのログ検索・監視
- ECサイトやIoTデータのリアルタイム可視化
- セキュリティイベントや異常検知のダッシュボード構築
サービス連携によるリアルタイム分析基盤の例
これらのサービスを組み合わせることで、データ発生から可視化までのリアルタイム分析基盤を簡単に構築できます。
例:ECサイトのイベントログ可視化
- Amazon Kinesis Data Streamsでアプリケーションからのイベントデータをリアルタイム収集
- Amazon Data Firehoseでデータをバッファリングし、OpenSearch Serviceに自動転送
- Amazon OpenSearch Dashboardsでイベントの傾向やエラー状況を即時可視化

ユースケース:Kinesis Data Streams・Firehose・Lambda・OpenSearchによるリアルタイム分析と可視化
あるコンテンツ配信企業では、Webアプリやモバイルアプリから発生するユーザー行動イベント(閲覧、リアクション、コメントなど)をリアルタイムに収集し、人気コンテンツやトレンドを分析する仕組みをAWS上に構築しています。イベントデータは秒間数千件という大規模な流量で発生し、Amazon Kinesis Data Streamsを使ってストリーミングで取得されています。
この企業の要件は
① 分析結果をできるだけ低レイテンシーで可視化すること
② 運用負荷を極力小さくすること
です。
解決方法
- Kinesis Data Firehoseを利用して、Kinesis Data Streamsからのストリームデータを受信します。
- 必要に応じてAWS Lambdaでデータを変換します。
- その後、Amazon OpenSearch Serviceにデータを配信します。
- 分析や可視化にはOpenSearch Dashboardsを利用します。
ポイント
- Kinesis Data Firehoseを活用することで、データ転送やバッファリング、配信をフルマネージドで自動化でき、運用負荷が大幅に軽減されます。
- OpenSearch Serviceは大量データでも低レイテンシーでの分析・可視化が可能です。
- 必要に応じてLambdaでリアルタイムにデータ加工も行えます。
このように、Kinesis Data Streams → Data Firehose → Lambda → OpenSearch Serviceという構成をとることで、高頻度なリアルタイムデータを低遅延で可視化しつつ、運用負荷も抑えた分析基盤を実現できます。

関連記事
AWS DEA実践解説前回のシリーズはこちらから

