データセンター分離のための光インターコネクト

データセンターの細分化により、コンピューティング、メモリ、ストレージ、ネットワーキングが固定サーバー境界内にロックされるのではなく、独立したプールされたリソースに分離されます。この分離により、新しいアーキテクチャ上の依存関係が作成されます。これらのプール間の相互接続層は、システム全体が 1 つの調整されたファブリックとして動作するために、十分な帯域幅、十分に低い遅延、および十分な到達距離を提供する必要があります。光インターコネクトは、特に銅線リンクが距離、電力、および信号の整合性の物理的制限に達する場合に、その役割をますます果たすトランスポートテクノロジです。-。

この記事では、光インターコネクトがどのように分散アーキテクチャをサポートするか、銅線よりも優れたパフォーマンスを発揮する点、CXL と共同パッケージ化された光との関連性、およびいつ採用することが実際的に意味があるのかについて説明します。{0}

Disaggregated data center linked by optical fabric

データセンターの細分化とは何ですか?

従来のサーバー中心モデルでは、CPU、メモリ、ストレージ、ネットワークが単一のシャーシ内にバンドルされています。{0}サーバーを購入すると、ワークロードにその比率が必要かどうかに関係なく、4 つすべての - の固定比率が得られます。データセンターを細分化すると、バンドルがバラバラになります。各リソースタイプは独自のプールに編成され、ワークロードは共有ファブリックを介して各プールから必要なものだけを取得します。

最近のワークロードはほとんどバランスが取れていないため、これは重要です。大規模な言語モデルのトレーニングジョブは、ローカルストレージにほとんどアクセスしないにもかかわらず、GPU メモリと East West 帯域幅を飽和させる可能性があります。-リアルタイム分析パイプラインには大量のメモリ容量が必要ですが、コンピューティングは中程度で十分です。-サーバー-中心の設計では、この不一致によりリソースの孤立が発生します。つまり、アイドル状態の CPU サイクルが枯渇したメモリやワークロードが使用していないストレージ容量と並行して発生します。

のオープンコンピューティングプロジェクト (OCP)は 2010 年代半ばから分散型ラック設計を推進しており、Meta や Microsoft などのハイパースケーラーは分散型ストレージとネットワークを大規模に展開しています。の出現コンピューティングエクスプレスリンク (CXL)はそのビジョンをメモリの分解にまで拡張し、アーキテクチャをより広範囲の環境でより実用的なものにしました。

従来のサーバー-中心の設計が壁にぶつかる理由

インフラストラクチャチームには、使用率の圧力と帯域幅の圧力という 2 つの力が分散の方向に向かっています。

利用面では、固定サーバーバンドルにより大規模な無駄が生じます。業界調査によると、メモリがサーバーの総コストのほぼ半分を占めているにもかかわらず、従来のサーバーの DRAM 容量の平均約 25% が未使用になっています。数千のノードにわたってその容量が不足すると、資本と電力の負担が大きくなります。

帯域幅の面では、AI トレーニングクラスタと高性能分析により、従来のノース-サウスウェブ-のサービス負荷とは大きく異なるトラフィックパターンが生成されます。{0}これらのワークロードは、数百または数千のエンドポイントにわたって、大量の東西トラフィック - GPU- から -GPU、アクセラレータ-から-メモリ、およびノード-}から-ノード -）を生成します。固定ボックス間の銅線が短い従来のサーバー中心のトポロジは、そのパターン向けに設計されていませんでした。リンク速度が 400G から 800G に上昇し、さらにそれを超えると、銅線の電気的制限を回避する設計が難しくなります。

光インターコネクトは分散データセンターでどのように機能しますか?

コンピューティング、メモリ、アクセラレータのリソースが別々のプールに配置されると、それらのプールを接続するファブリックがパフォーマンスクリティカルなレイヤーになります。{0}光インターコネクトは、電気信号を光に変換し、データを送信することでその層に機能します。シングル-モードまたはマルチモードファイバー、受信側で電気に変換し直します。

光伝送の物理学は、この仕事に構造上の利点をもたらします。ファイバー内の光信号は、銅線の電気信号よりもメートル当たりの減衰がはるかに少ないため、光リンクは、銅線が高速で要求する電力を大量に消費する信号調整（リタイマー、DSP、イコライザー）を必要とせずに、長距離にわたって信号品質を維持できます。- 800 Gbps では、パッシブ銅線はおよそ 3 ～ 5 メートルまで実用的です。アクティブな電気ケーブルは、それをおそらく 7 メートルまで延長します。光リンクは通常、同じデータレートで 100 メートルから 2 キロメートルに広がり、コヒーレント光は数十キロメートルに達することがあります。

Short copper links and longer optical connections

細分化されたアーキテクチャでは、このリーチの利点は抽象的なものではありません。これは、統合システムのように動作しながら、リソースプールをどれだけ離して配置できるかを直接決定します。具体的には：

ラック内:銅線は、トレイ内の-サーバー-から-トップオブラックスイッチ-、-}GPU-から-GPUへの非常に短い接続では依然として優勢です。 2～3 メートル未満の距離では、銅線の方がシンプルで安価で、レイテンシが低くなります。-
ラック-から-（2～100 m）:ここで、400G 以上では光インターコネクトが実質的なデフォルトになります。コンピューティングラックを隣接するラックのメモリプールに接続したり、GPU トレイを列全体にリンクしたりするには、通常、ファイバーが提供する帯域幅密度と到達距離が必要です。光ファイバーケーブルアセンブリそしてMPO/MTP接続これらのパスの標準です。
部屋-から-部屋および建物-から-（100 m - 10+ km）:このような距離と速度では、光伝送のみが実行可能です。この範囲は、ストレージプール、バックアップコンピューティング、または災害復旧リソースが別々の建物に存在するキャンパス規模の細分化において重要です。{{1}

分散データセンターにおける光インターコネクトと銅線の比較

光と銅線のどちらを選択するかは二者択一ではなく、-スコープに依存します。-以下は、細分化された設計で最も重要な要素全体で 2 つを比較したものです。

要素	銅	光ファイバー
800Gで実用的な到達距離	3 ～ 7 m (パッシブ/アクティブ)	100 m – 10+ km (光学系の種類による)
帯域幅密度	ケーブルごとに低くなります。高速になるとケーブルが太くなる	ケーブルあたりの料金が高くなります。細いファイバーは多数のポートをサポートします
ビットあたりの電力 (到達距離が長い)	より高い - DSP、リタイマー、信号調整が必要	同等の到達距離と速度でより低い
レイテンシー (到達距離が短い)	非常に低い (パッシブ銅線には変換オーバーヘッドがない)	電気光変換により若干高くなります-
EMI耐性	電磁干渉を受けやすい	高密度、高電力環境では免疫力 - が重要です。-
ケーブルの重量とエアフロー	カウントが高くなると重くなり、かさばります	より軽くて薄いので、密度の高いラックでの通気性が向上します。
コスト（リーチが短く、速度が遅い）	前下がり	前払い額が高い
コスト（システムレベル、大規模）	電力、冷却、制限に達すると、さらに高くなる可能性があります	多くの場合、400G 以上および長いパスでは総所有コストが低くなります
細分化されたデザインに最適	-トレイ内、-ラック内の短いリンク	ラック{0}}からラック-、列{2}}から-、部屋-から-部屋、キャンパス-のスケール

実際的なポイント: 短距離のシンプルさが依然として優れている場合は銅線を使用してください。-到達距離、帯域幅密度、電力効率、またはケーブル管理が拘束条件となる場合は、光ファイバーを使用します。分散環境では、アーキテクチャ自体が分離されたリソースプール間により長く、より高い帯域幅のパスを作成するため、相互接続全体に占める光の割合が増加します。-メディアタイプの詳細な比較については、次を参照してください。光ファイバーケーブルと銅線ケーブル: どちらが導入環境に適しているか.

Copper versus optical interconnect comparison

分散のための光インターコネクトの主な利点

分離されたリソースプールのより高い帯域幅密度

分散すると、かつて同じ場所に配置されていたリソースがファブリック経由で通信するようになるため、相互接続層を通過するトラフィックの量が増加します。{0}}光ファイバーは、ファイバーあたりのより高い帯域幅とケーブルあたりのファイバー数の増加により、その需要をサポートします。-シングルリボンファイバーケーブルコンパクトな断面で数百のファイバーを伝送できるため、分散された GPU クラスタとメモリプールに必要な種類のポート密度が可能になります。{0}}

大規模な消費電力と熱負荷の低減

相互接続層がシステムトラフィック全体のより大きな割合を占めるため、分散設計では電力効率がより重要になります。 800G 以上では、中距離の銅線リンクでは両端で電力を大量に消費する DSP 処理が必要です。{2}}同等の速度と距離の光リンクは、ビットあたりの消費電力が少なくなります。 NVIDIA の共同パッケージ化された光学スイッチングプラットフォームに関する技術ドキュメントでは、-消費電力を 3.5 倍削減従来のプラグ可能トランシーバーと比較して。データセンター規模では、その差は電気代の削減と冷却インフラの削減に直接つながります。

モジュール式の独立したスケーリング

分解の主な約束の 1 つは、コンピューティング、メモリ、ストレージが異なるレートで拡張できることです。光インターコネクトは、1 つのリソースプールに容量を追加するときにファブリック全体を再設計する必要がないため、この約束をサポートします。プラグイン可能な光モジュール基盤となるファイバープラントを変更せずに、400G、800G、1.6T - まで段階的にアップグレードまたは追加できます。-。

異種ワークロードに対する柔軟性

リソースがプールされ、高性能の光ファブリックを介して接続されると、インフラストラクチャチームは、固定のサーバー構成に基づいてワークロードを形成するのではなく、リソースをワークロードに動的に割り当てることができます。{0}この柔軟性は、AI トレーニングジョブ、リアルタイム推論、分析パイプライン、ストレージ負荷の高いアプリケーションが共存し、さまざまなリソースタイプをめぐって競合する環境で特に価値があります。{2}

光インターコネクトと CXL および共同パッケージ化された光学素子との関係{0}}

CXL: メモリとリソース共有のためのプロトコル層

CXL (Compute Express Link) と光インターコネクトは、分離問題のさまざまな部分を解決します。 CXL は、PCIe 物理層 - 上に構築されたオープン標準プロトコル - で、CPU、メモリデバイス、アクセラレータ間のキャッシュコヒーレント通信を可能にします。-これは、分離されたリソースをどのようにプールし、ソフトウェアおよびプロトコルレベルで効率的に共有できるかを定義します。

Intel、AMD、NVIDIA、Samsung、Microsoft、Google、Meta がメンバーとなっている CXL コンソーシアムは、2023 年 11 月に CXL 3.1 をリリースし、以下を明示的にサポートしました。マルチレベルのスイッチングと{0}ファブリック{1}}ベースの分離ラックを越えて。 CXL 3.0 では、ユニファイドファブリックで最大 4,096 ノードのサポートが導入され、ラック規模-、場合によってはクラスタ規模-}のメモリプーリングが可能になりました。

光インターコネクトは、これらの分散ノード間で CXL トラフィック (およびその他のプロトコル) を伝送できる物理トランスポートです。 CXL- ベースのメモリプーリングを評価するチームと光インターコネクトを評価するチームは、多くの場合、異なる角度から同じ分解の取り組みに取り組んでいます - 1 つはプロトコルとリソース共有ロジックに取り組み、もう 1 つは物理トランスポートに取り組みます。-

CXL over optical transport with co-packaged optics

-光学部品の同時パッケージ化: 光学部品をチップに近づける

共同パッケージ光学系（CPO）は、フロントパネルの電気トレースを介して接続された個別のプラグイン可能なトランシーバーに依存するのではなく、光エンジンをスイッチ ASIC や GPU と同じパッケージ基板に直接統合することでさらに進化しています。{0}これにより、システム内で最も長く電力を多く消費する電気経路が排除されます。-

GTC 2025 で、NVIDIA は最初の製品を発表しました。共同パッケージ化されたシリコンフォトニクススイッチングプラットフォーム-（Quantum-X フォトニクスおよび Spectrum-X フォトニクス）、800 Gb/秒の 512 ポートで最大 409.6 Tb/秒の帯域幅を実現します。 NVIDIA CEO の Jensen Huang 氏は、従来のプラガブルトランシーバーを使用して 100 万 GPU に拡張すると、トランシーバーの電力だけで約 180 MW を消費することになると指摘しました -。これは CPO が対処するように設計された持続不可能な数字です。

CPO は、分解を評価するすべてのチームが今すぐ導入する必要があるものではありません。プラグイン可能な光モジュールは、依然としてほとんどの製品の主要なフォームファクタですデータセンターの光ファイバー導入されており、少なくとも 2020 年代後半までは継続される予定です。ただし、CPO は光学ロードマップの方向性を表すものであり、大規模な AI クラスタや次世代の分離ファブリックを計画しているチームは、その成熟度を綿密に追跡する必要があります。-

光インターコネクトが最も意味をなすのはどのような場合ですか?

AI とアクセラレータの-負荷が高い環境

AI トレーニングクラスターは、分離されたコンテキストにおける光インターコネクトの最も強力な使用例の 1 つです。これらのシステムは、GPU-から-GPU、および GPU-から-のメモリパスを介して大量の東西トラフィックを生成します。クラスターのサイズが数百から数千の GPU に拡大するにつれて、到達距離と帯域幅の需要は銅線でサポートできる量をすぐに超えます。たとえば、NVIDIA の GB200 NVL72 アーキテクチャでは、ネットワークコスト (光トランシーバーを含む) がクラスターの総コストの 15 ～ 18% を占め、光トランシーバーはそのネットワークコストの約 60% を占めます。光学層を最適化するための経済性とパフォーマンスのケースは重要です。

メモリプーリングとコンポーザブルインフラストラクチャ

チームが CXL{0}} ベースのメモリプーリングを評価している場合、物理トランスポート層は、許容できないレイテンシを追加したりスケールを制限したりすることなく、その分離をサポートする必要があります。 CXL 3.1 は、ラックを超えたファブリックスケールの分散を明示的にターゲットとしています。これは、相互接続パスが従来のサーバー内メモリバスよりも長い距離に及ぶことを意味します。-光リンクはこれらのパスに自然に適合します。

不均一なスケーリングニーズがある大規模環境

光インターコネクトは、コンピューティング、メモリ、ストレージを異なるレートで拡張する必要がある場合にも、より合理的です。コンピューティング能力が年間 3 倍、ストレージが 1.5 倍に増加している場合、分散アーキテクチャにより各プールを個別に拡張できます -。光インターコネクトにより、毎回ケーブル配線プラントを再設計することなく、それが物理的に可能になります。

意味がわからないとき

光インターコネクトは、あらゆる環境にとって適切な出発点であるわけではありません。データセンターが従来のサーバー上で主にバランスのとれた汎用ワークロードを実行しており、ラック間のトラフィックが控えめで既存の銅線インフラストラクチャによって適切に処理されている場合、光ファーストファブリックのコストと複雑さが正当化されない可能性があります。{{2}同様に、数十台のサーバーがニーズを満たす規模で運用している場合、分割自体により、節約できる以上に運用の複雑さが生じる可能性があります。スケール、異質性、リソースの不均衡が現実であり、仮説ではなく測定可能な場合、アーキテクチャは効果を発揮します。-。

導入前に評価すべきこと

1. 実際のボトルネックをマッピングする

まずは明確な質問から始めてください: バインディング制約とは何ですか?到達距離はありますか (ラックのレイアウトに対して銅線経路が短すぎます)?帯域幅密度 (GPU クラスターに電力を供給するのに十分なケーブルあたりのスループットがありません)?電力 (電気リンクは 400G+ で大量のワット数を消費します)?リソースの使用率 (サーバーが 1 つの軸でオーバープロビジョニングされ、別の軸で不足している)?光インターコネクトが最も価値があるのは、ボトルネックが物理的で測定可能な場合であり、一般的な最新化のジェスチャーとして採用される場合ではありません。

2. ケーブルコストではなく、システムの総コストを評価する

よくある間違いは、銅線ケーブルの価格とケーブルの価格を比較することです。光ケーブル隔離中。その比較は誤解を招きます。意味のある比較には、消費電力、熱オーバーヘッド (およびそれによって生じる冷却コスト)、ラックユニットあたりのポート密度、使用可能な範囲、アップグレードの柔軟性、および広範なアーキテクチャにおける孤立したリソースのコストが含まれます。 400G 以上の多くの分散環境では、システム全体を考慮すると、ファイバーの総所有コストは銅線よりも低くなります。

3. 互換性と運用準備を確認する

評価する光ファイバーケーブルのテスト要件、モジュールの相互運用性、監視ツール、チームのファイバーに関する運用知識などです。プラグ可能光モジュール（OSFP、QSFP-DD）は十分に標準化されており、広くサポートされていますが、運用チームは大規模に導入する前に、ファイバの取り扱い、クリーニング、トラブルシューティングに慣れている必要があります。-これらの運用要素を検証できるパイロットドメインから始めることを検討してください。

4. 繊維植物の寿命を計画する

ファイバーインフラストラクチャの重要な利点の 1 つは、パッシブファイバープラント - ケーブル、パッチパネル、および経路 - が複数世代のトランシーバーテクノロジーをサポートできることです。うまく設計された-データセンター接続現在 400G 用に設置されているファイバープラントは、新しいケーブルを引くことなく、トランシーバーを交換することで 800G と 1.6T のアップグレードをサポートできます。これにより、10 年間の計画期間にわたってファイバーへの初期投資がより防御可能になります。

実用的な導入パス

ステップ 1: 制約されたドメインを 1 つ特定します。銅線の到達範囲、電力、帯域幅密度、またはリソースの座礁がすでに測定可能な苦痛を引き起こしている場所を探してください。それは、GPU クラスタの拡張、分析環境におけるラック間のボトルネック、またはメモリプーリングのパイロットである可能性があります。--

ステップ 2: 試験運用と検証を行います。そのドメインに光インターコネクトを導入します。既存のベースラインと比較して、レイテンシの動作、消費電力、運用の複雑さ、拡張の経済性を測定します。

ステップ 3: 証拠に基づいて展開します。パイロットデータを使用して、より広範な導入に向けたビジネスおよび技術的なケースを構築します。細分化と光移行は、単一のビッグバンプロジェクトとして最適に処理されることはほとんどありません。-段階的なロールアウトにより、学習し、調整し、組織の信頼を築くことができます。

意思決定チェックリスト: 光インターコネクトはあなたの分離の取り組みに適していますか?

ラック間のリンク距離、またはラック間のリンク距離、または部屋間のリンク距離は、目標速度での銅線の実際の到達距離を超えていますか?
近い将来、400G 以上のリンク速度を導入する予定がありますか?
電気相互接続からの電力消費は、データセンターのエネルギー予算の重要な部分になりつつありますか?
CXL{0}} ベースのメモリプーリング、コンポーザブルインフラストラクチャ、または GPU クラスタの拡張を評価していますか?
リソースの孤立 (アイドル状態のコンピューティング、メモリ、またはストレージが固定サーバー内にロックされている) は、測定可能なコストの問題ですか?
ご使用の環境では、コンピューティング、メモリ、ストレージをさまざまなレートで拡張する必要がありますか?

これらのうち 3 つ以上が当てはまる場合、光インターコネクトは、分解ロードマップの一部として真剣に評価される価値があります。

よくある質問

データセンターにおける光インターコネクトとは何ですか?

光インターコネクトは、光信号を使用する伝送技術です。光ファイバーケーブルデータセンター内およびデータセンター間のネットワークデバイス、サーバー、スイッチ、ストレージシステム、リソースプール間でデータを伝送します。同等の速度の銅線と比較して、より高い帯域幅、より長い到達距離、より低いビットあたりの電力を提供します-。そのため、分離された AI 指向のアーキテクチャでは特に重要です-。

光インターコネクトは CXL とどう違うのですか?

これらは異なる層で動作します。光インターコネクトは物理転送テクノロジー - で、光を使用してポイント A からポイント B にビットを移動します。 CXL は、CPU、メモリ、アクセラレータがコヒーレントに通信する方法を定義するプロトコル標準です。光インターコネクトは CXL トラフィックを伝送できますが、CXL は短距離接続用の電気リンクでも実行されます。-分散により、より優れたプロトコル (CXL) とより優れた物理トランスポート (光) の両方に対する需要が生じるため、チームは両方を同時に評価することがよくあります。

分散されたデータセンターで銅線と光は共存できますか?

はい、通常はそうします。ほとんどの分散環境では、非常に短いラック内接続（3 ～ 5 メートル未満）には銅線が使用され、よりシンプルかつ安価になります。また、銅線の到達距離、電力、密度の制限が拘束されるラック間接続、列間、列間、およびより長い経路には光ファイバーが使用されます。-この決定はスコープに依存します。-すべてまたは何もしないわけではありません。-

共同パッケージ化された光学系とは何ですか?{0}今すぐ必要ですか?

共同パッケージ光学系（CPO）は、光エンジンをスイッチ ASIC またはプロセッサと同じパッケージに直接統合するため、個別のプラグイン可能なトランシーバーの必要性がなくなり、消費電力と遅延が削減されます。{0} NVIDIA と Broadcom は、次世代 AI ネットワーキングプラットフォームに CPO を導入しています。-現在、ほとんどのデータセンターでは CPO は必要ありません -プラグ可能光モジュール標準の - のままですが、CPO は 2026 ～ 2028 年の期間で大規模な AI インフラストラクチャのロードマップに載っています。-

光インターコネクトで分離を追求すべきでないのはどのような場合ですか?

ワークロードがコンピューティング、メモリ、ストレージ全体でバランスよく分散されている場合。{0}規模は控えめです (サーバー数が数十台)。また、既存の銅線インフラストラクチャは、現在および短期的な帯域幅のニーズに負担なく対応できます。-分離と光移行による複雑さが増すため、投資に値しない可能性があります。バズワードではなくボトルネックから始めましょう。

データセンターの光インターコネクトにはどのような種類のファイバーが使用されていますか?

シングルモードファイバー-長距離、高速リンク（通常はラック間、ラック間、さらにそれを越える）-に使用されます。{{1}マルチモードファイバーこれは、数百メートルまでの短い-データセンター-内接続の場合に一般的です。選択は、各リンクに必要な到達距離、速度、コストプロファイルによって異なります。

知識