投稿者: 森広志
Bigqueryの統計情報のクエリプランへの影響の検証
2023年12月19日※下記のGithubでも公開しています。gitの方が見易い人はこちらを参照してください。 https://github.com/data2coordi/pub_bigquery_query_plan_ev ##概…
Bigquery 性能検証
2023年12月19日※下記のGithubでも公開しています。gitの方が見易い人はこちらを参照してください。 https://github.com/data2coordi/pub_bigquery_pf_ev ##概要 基…
掲示板WEBサイトの投稿分析機能
2023年12月19日※下記のGithubでも公開しています。gitの方が見易い人はこちらを参照してください。 https://github.com/data2coordi/pub_gcp_vertex_for_web ##機能概…
Bigqueryテストデータ生成 – 1億件を10秒で! –
2023年12月19日※ 下記のgithubでも同様の内容を公開しています。gitの方が見易い方は下記を参照してください。 https://github.com/data2coordi/pub_bigquery_generate_da…
ETLのウィークポイント(システム移行)
2023年8月6日ETLはソフトウェアのバージョンアップ、ハードウェアのリソース不足、老朽化等でシステム移行が必要となる。ETLは非常に多くのシステムと接続するためこのシス…
ETLのウィークポイント(修正とテスト)
2023年8月2日ETLは生産性が高いと言われるが必ずしもそうではない。スクラッチ開発よりも弱い部分がある。率直に言うと、ETLは新規のアプリ作成は生産性が高い。一方、以下…
ETLのサイジング:ストレージ
2023年8月2日ETLサーバーの内部ストレージは以下のような用途で使われる。 ソート、ランク処理等での一時領域 マスターデータをDBから複製してトランザクションデー…
ETLのサイジング:メモリ
2023年8月2日ETLのメモリはDBのように、アクセス頻度の高いデータをメモリに載せてディスクアクセスの頻度を削減するような使い方はしない。 ソート、ソートJOIN、Group …
ETLのサイジング:CPU
2023年8月1日ETLのCPUをサイジングするときの基本的な考え方を記載する。いろいろなサイジング方法があるが私が使っているものである。常に実測してみて見積るのでは作業コ…
サイジング:HDD vs SSD
2023年7月30日最近はほとんどのケースでSSDでストレージを構成する。HDDとSSDではシーケンシャルIOの特性に違いがあり、SSDをHDDの場合と同じように考えてサイジングすると想…
サイジング:ストレージ
2023年7月28日クラウドでサーバーのディスクストレージを選択する時、どのように選択するべきか基準がわからない人が多いのではないだろうか。データ基盤のボトルネックの多…
データストア(データベース)の選び方
2023年7月26日時代の流れとともにニーズが変化しデータソースの機能も進化してきた。しかし、いろいろなタイプのデータベースが存在するのはなぜだろうか。理由はデータの整…
Tech Blogのコンセプト
2023年7月26日Tech Blogでは中級者以上の技術者向けにデータエンジニアの領域についての情報を提供する。25年以上、SIerの技術者として現場で手を動かしてきた(About参照)…
データ連携基盤のサイジングの考え方
2023年7月26日データ連携基盤をサイジングするときのポイントをまとめる。 超概要 1.目標設定最も重たいかつ重要な処理について目標の処理時間を設定する。 2.…
データ連携基盤の基本アーキテクチャー(クラスタ構成)
2023年7月23日可用性と性能を考慮したデータ連携基盤のアーキテクチャを記載する。 要件が単純な場合は、”ソースシステム→ETL→ターゲット”がそれぞれ単体で存在するよう…
DB実行計画の”コスト”の考え方を理解する
2023年7月23日データベースの実行計画のマニュアルや解説で下記の図のようなコストという概念が出て来る。私はデータベースの実行計画を勉強し始めたころ、このコストの概念…
CPU、ストレージ、NWの処理時間を”体系的”に理解する
2023年7月22日システムの処理時間はCPU、ストレージ、ネットワークの処理時間の合計である。それぞれの処理時間の規模感が理解できるとパフォーマンスチューニングでどこがボ…
データ基盤の構成要素
2023年7月22日データ基盤を構成する要素を記載する。他のサイトにも存在する情報ではあるがデータ仮想化も含めたフルセットがシンプルに整理されたものが見つからなかったの…
DBの実行計画とは
2023年7月21日データベースの実行計画がどのようなもので、どのように利用されるか記載する。本質の理解を目的としているため特定のシンプルな構成を例に説明する。 …
システム設計で待ち行列理論を活用する
2023年7月20日待ち行列という理論があり、IPAの情報処理試験にも登場する。実務での活用が難しい理論だと思う。本質を理解して活用できるように体系化する。 概要 シス…
データ基盤(連携基盤+分析基盤)の進化
2023年7月19日データ基盤にはいろいろな種類がある。その結果、データ基盤のイメージは人によって様々である。時代の流れとともにデータ量が増え、ニーズも変わりデータ基盤…
