クラウドネイティブは、果たして通信事業者の運用を楽にし、コストを下げているのか? NTTドコモやKDDI、ソフトバンク、楽天モバイル、LINEヤフーなど各社が議論[PR]
通信事業者におけるネットワークの仮想化という大きな変化に向けて、通信事業者や通信機器メーカー、クラウド事業者、オープンソース開発者らのキーパーソンを集め、議論するイベント「Cloud Native Telecom Operator Meetup 2024」(以下、CNTOM 2024)が、2024年12月20日に東京⼤学 山上会館で行われました。

この記事ではCNTOM 2024で行われた主要なセッションをピックアップして内容をダイジェストで紹介していきましょう。
クラウドネイティブ時代のネットワーク運用:AI技術の適用と課題
KDDI総合研究所 宮坂拓也氏による基調講演「クラウドネイティブ時代のネットワーク運用:AI技術の適用と課題」では、Kubernetes上のコンテナ環境を基盤に構築された5Gネットワークから、eBPFを用いて多数のデータセットを取得し、それをAIが学習することで、より高い精度の予兆検知を実現する、という研究について解説されました。

eBPFとはクラウドネイティブにおいてオブザーバビリティの領域で注目されている技術の1つです。Linuxカーネルを書き換えることなくその内部の機能をフックすることで、カーネルをプログラマブルに機能拡張でき、これによってパケットのフィルタリングやパフォーマンス監視などさまざまな実装が可能になります。
宮坂氏の説明によると、このeBPFを用いて、10秒間隔でCPUの待ち時間やTCP再送回数などを含む4000次元以上のメトリクスを取得。
これをLSTM(Long Short Term Memory)と呼ばれる深層学習の仕組みによって将来予測を行うことで障害を予測しようというものでした。
「eBPFのデータを追加することによって、障害などの予測というものが素早く、かつ高精度にできないかというのがこの研究の始まりです」(宮坂氏)
実験として、パケットロスが徐々に上昇するというシナリオを試したところ、eBPFによるメトリクスを含まない場合よりも十分に高い精度で実測値と予測値がほぼ一致したことが示されました。

「eBPFのメトリクスを含めることによってネットはAIにおいてもうまくモデルが学習できるということが分かりました。やはりクラウドネイティブにおいてオブザーバビリティの重要さは言われていますが、それはAIの学習にとっても結構大切だというのが、今回得た知見でした」(宮坂氏)
AIをネットワークの実運用に使う上での課題
宮坂氏はこれを踏まえた上で、ではこれが実際に運用で使えるのか? と、ネットワーク運用におけるAI/ML技術適用に向けた話を切り出し、3つの課題を挙げました。
1つ目は、ネットワークは時間と共に変わるという点です。特にクラウドネイティブにおいてはソフトウェアによってネットワークの構造を柔軟に変えることができることが利点の1つとなっていますが、これによってAIによる学習もその変化に対応させていかなければならないという点です。
宮坂氏はAIをネットワーク運用に適用する上で、ネットワークオペレータの仕事も変わる可能性があると、次のように言及しています。
「今後のネットワークオペレーターの仕事として、ネットワークの機器を見るというよりは、AIモデルがちゃんと動いてるか、みたいなところAIモデルがオペレーターの仕事になる可能性が、もしかするとあるのかなと考えております」(宮坂氏)
2つ目の課題は、eBPFで取得する大量のデータを実際のKubernetesのポッドと紐付ける難しさです。「インフラのデータと、そのコンテナをどうやって紐付けるか、それが自動的にできるかが技術的な課題かなと思います」(宮坂氏)
そして3つ目の課題は、AIによる予測結果がブラックボックスであるという点です。AIにより異常が検知されたとして、それがどのような理由で起こるのか、本当に異常なのかといった説明が得られないところも今後の課題で、まだまだ人間が関与する部分は大きいだろうとしました。
生成AIは通信をどう変えるのか(試論)
2番目の基調講演として行われたのが、クロサカタツヤ氏による「生成AIは通信をどう変えるのか(試論)」です。
クロサカ氏は、本イベントのテーマであるクラウドネイティブが、資本市場においてどれだけ理解されているのかと問題提起します。
そしてその例として、2021年にAT&Tが5Gモバイルネットワークをマイクロソフトのクラウド上に移行したことを発表した後も、AT&Tの株価の推移は上昇していないことを示しました。

「通信キャリアがアセット売却してクラウドへ全部移して、エンジニアもそちらに移って、コアバリューを外に出していくというのは大きなインパクトがあると私は思ってたんですけど」(クロサカ氏)、しかし市場はそのようにクラウドネイティブ化を評価していないと指摘。
その上で会場に集まったクラウドネイティブを推進する参加者に向けて「クラウドネイティブ化は非常に大きなイベントであり、大きな転換点であると私は思っているので、ぜひ皆様、現場でその価値を表現していっていただきたい」とエールを送りました。
ネットワークの複雑な協調に生成AIを
クロサカ氏は講演の冒頭で「生成AIが通信業界にどのような変革をもたらすかについて、現時点ではまだ明確な結論を出すには至っていない」と述べつつ、講演の後半で通信業界における生成AIの可能性について言及しました。
クロサカ氏は、現在のネットワークは自律分散協調で構成されているものの、協調が特に難しく、横で繋がっていく協調もあれば、レイヤが分かれているところで縦に協調する必要があるところもあり、非常に入り組んでいると指摘します。

クラウドネイティブ化は、こうした複雑な協調を実現するなかで起きていることであり、同時にネットワークにおける役割分担の姿や、プレイヤーの姿も多分変わってきているとクロサカ氏。
こうした複雑な協調の上でさまざまなシナリオを実現しサービスを提供していこうとするところで人間がオペレーションを行っていくことは難しくなっていく中で、生成AIを活用することは十分にあり得るだろうとしました。
さらにログ解析のような大量のデータ分析に生成AIの力を借りること、あるいは人間同士のコミュニケーションコストを下げるために生成AIを活用するアイデアにも言及しました。
パネルディスカッション:統合基盤って実際どうなの?
CNTOM 2024では主要な通信事業者の技術者によるパネルディスカッションも主要なセッションとして行われました。
その1つ目のパネルディスカッションが「統合基盤って実際どうなの?」のタイトルでLINEヤフー、ソフトバンク、KDDI楽天モバイルの技術者が登壇。

モデレータを務めた日本電信電話 水野氏は次のようにディスカッションのテーマを登壇者に投げかけました。
「事業部門がそれぞれのアプリケーションに応じて基盤を作るというのはよくあることかなと思います。
一方で、基盤が乱立してしまうとオペレーションや調達がバラバラになるなど、いろんなところで非効率なところもある、という議論が経営層から出て、基盤を統一すれば調達も安くなるだろう、運用も効率化するだろうということで、社内の統合基盤を作るという話になります。
ただ、実際には全てのアプリケーションがWeb系ではないですし、レガシーなアプリケーションが超巨大VMで動いてるとか、WindowsのVMが動いているとか、AIを動かすのでGPUを使いたいとか、NFVなのでSLAガチガチでワンパケットも落とせないというような、アプリケーションごとの要件がって、それを一つの統合基盤で本当に支えられるんですかという問題もいろいろ出てくるでしょう。
ということで本セッションでは、実際に統合基盤に携わられてる方々に、実際うまくいってるんですか、どんな課題ありますか、といったあたりをうかがっていきたいと思います」(日本電信電話 水野氏)
水野氏はまず登壇各社の統合基盤の状況について質問。回答として、LINEヤフーはLINEとヤフーの統合に伴い、両社のプライベートクラウドの良い点を組み合わせた新しいクラウドを構築中。
ソフトバンクは以前から社内で複数の統合基盤の取り組みが進んでおり、特に社内ITの統合が先行しているところ。現在さらなる共通化を模索中。
楽天モバイルは後発ということもあり統合基盤から始まっており、パケットコアもLANも含めて同じソフトウェアで構築し、同じチームで運用しているとのこと。
KDDIは社内ワークロードを共通の基盤に載せる取り組みとしてOpenStack基盤を構築しているとしました。
要件やSLAが異なるアプリケーションを統合基盤に載せることをどうやって実現しているのか? との問いにKDDI 辻氏は、SLAが一番高いのはNFVだろうとした上で「基本的に大は小を兼ねるので、SLAを高いものに合わせとけばあまり困ることはないです。高めるためのテクニックもそんなに特殊なことはないので、何とかなってるかなと思います。
ただ、SR-IOVとかを使い出すと制約が強いので、そういうハードの制約や運用の制約が強いものはなるべく使わないようにして、テナントシステムに誘導したりしています」
ソフトバンク 古川氏はさまざまな要件のアプリケーションに対応する統合基盤の姿をクラウドに例え「多分ゴールイメージの1つがパブリッククラウドみたいなもので、例えばSLAごとのメニューを用意して、こういうSLAであればこうします、請求はこうです。特殊で個別対応が必要な要件は別ですよと」
楽天モバイルの壬生氏は、統合するのは基盤だけではないと次のように発言します。
「基盤だけじゃないんですね、統合すべきものというのは。例えばどう基盤とかコンピューティングを使ってアプリの冗長構成を組んでいくか、知見をうまく導入してアーキテクチャに落とし込んでいかないといけない。そういうガバナンスの一つの取り組みとして、アプリケーションをデプロイする前にデザインを関連部門で見て、運用部門を入れてレビューして、こういう問題があったらこう対処しようとか、そういうこともやったりはしています」(楽天モバイル 壬生氏)
KDDIの辻氏は、統合基盤によってインフラチームが1つになる利点を力説します。
「やっぱりインフラチームが一つで、本当に少ない人数で大量の、数千台のサーバーとかを設定できるし、回せてるのは本当にすごい価値だなって思います」(KDDI 辻氏)
LINEヤフーの井上氏からも「ハードウェアもソフトウェアも一括して見る、というのは非常に強みがあります」と同意する発言がありました。
クラウドネイティブによって運用は楽になっているのか?
午後に行われたパネルディスカッション「監視と自律NWどうよ」では、クラウドネイティブなどの新技術などによって変化が起きているなかで、果たして運用は楽になっているのか、そしてAIを活用したネットワーク運用の取り組みなどについて、KDDI、NTTドコモ、ソフトバンク、楽天モバイルの技術者による議論が交わされました。
司会者から、コンテナやKubernetesなどのクラウドネイティブな技術がネットワークに組み込まれている現状で、運用は楽になったのか? マルかバツで答えてほしいとの問いに、4社中2社がマル、2社がバツと回答。
楽天モバイルの徐氏は個人的な希望も込めたとした上で、自律的なネットワーク障害の修正といった仕組みが使われているチームもあり、部分的に実現し始めているとしてマルを。KDDIの山下氏は、クラウドネイティブ系の運用体制はレガシーの運用体系と比較されがちで、その部分が難しいとしてバツを提示。
ソフトバンクの有嶋氏は、自律的なオートノマスネットワークのクローズドループを特定のネットワークで実現させているところまで来ており、今後も拡張をしていこうと考えているとしてマルを、NTTドコモの大坂氏は、クラウドネイティブによって悪くなったとは思わないが変わっていないとしつつ、ハイブリッドになって複雑になっているというのが正直な環境だとしてバツを提示。4社の意見がきれいに2分された結果となりました。
AIを活用した運用については各社ともまだ本格的に始まっていない状態であることが各社から示されました。
楽天モバイルでは試作段階としてアノマリー検知を試みたものの、精度が低く実用化には至らないものの、一部のチームでは生成AIの活用を始めているとのこと。KDDIでは大規模障害対策としてAIによる異常検知を導入してはいるものの、スピードや精度に関しては学習やチューニングを繰り返しているところだとしました。
ソフトバンクでは機械学習を活用しているものの検知遅延やチューニングが課題となっているとし、NTTドコモもAIを使い始めてはいるがアノマリーが検出されすぎるなど、現時点ではまだ十分な実運用には達していないとしました。
クラウドネイティブの採用はすでに当然のものとなった
その他CNTOM 24ではキャリアネットワークにおけるDevOpsのあり方や方向性、オープンソースのような社外で開発しているソフトウェアを用いつつ継続したサービスを維持する上での課題などが議論されました。
これまでのCNTOMでは、クラウドネイティブの技術をどのように取り込むのか、どのようなメリットがあるのかが主な論点でした。
しかし今回のCNTOM 24ではクラウドネイティブの採用はほぼ当然のものとなっており、それをどのようにコスト削減やよりよいサービスに結びつけていくのか、そして急速に注目を集めている生成AIをどのように活用していくのかという、より具体的な課題設定によるプレゼンテーションと議論が多く交わされたイベントとなりました。
≫Cloud Native Telecom Operator Meetup 2024 (CNTOM 2024)
(この記事はCloud Native Telecom Operator Meetup実行委員会の提供によるタイアップ記事です)