大手が競って参入 AI半導体は何がすごいのか いまさら聞けない注目テック用語

大手が競って参入 AI半導体は何がすごいのか
いまさら聞けない注目テック用語

 人工知能(AI)向けの処理に特化した半導体「AI半導体」を巡る動きが活発化している。どれも深層学習(ディープラーニング)を高速に処理するための半導体だ。AI半導体が広がるきっかけとなったのは米グーグルが2016年に発表した「TPU」だろう。社外には販売せず、自社のサービス向けに使い始めた。17年に第2版である「クラウドTPU」を発表。18年2月にはこれを同社のクラウドサービス「グーグルクラウドプラットフォーム」の利用者が使えるように公開した。
AI半導体をクラウドサービスの利用者向けに公開したグーグル(米カリフォルニア州の本社)
AI半導体クラウドサービスの利用者向けに公開したグーグル(米カリフォルニア州の本社)
 一方、米インテルは16年に買収した米ネルバナ(Nervana)の技術を使った「ネルバナNNP」を17年10月に発表。さらに同月、交流サイト(SNS)最大手の米フェイスブックと共同で、新世代のAI半導体を作り出すと発表している。
 スマートフォンスマホ)には、こうした専用半導体の搭載が始まっている。17年9月に中国・華為技術(ファーウェイ)が「メイト10」に搭載した「キリン970」で、AI機能「NPU」を組み込み済み。米アップルが9月に発売した「iPhone8」「iPhoneX」に搭載した「A11バイオニック」にもAI機能が組み込まれている。
 この流れはさらに加速しそうだ。というのも、スマホ向け半導体の設計情報で圧倒的なシェアをほこる英アーム・ホールディングスもAI半導体を手掛けるからだ。アームは18年2月、開発コード名「プロジェクトトリリウム」として、AI向けの機能をプロセッサーに組み込むと発表。18年中ごろには設計情報が公開され、実際に半導体に採用されていく流れになる。
■GPUは演算器の固まり
 これまでAI向け半導体といえば、米エヌビディアの製品がよく使われていた。もともと同社が開発・販売していたのはグラフィックス処理のため半導体(GPU)である。グラフィックス処理は、具体的には3次元の空間に存在する物体や光の当たり方による色の変化、影の付き方などを、2次元の平面(画像)に変換する作業だ。このため、3次元にある物体の位置が画像上のどこに位置するのか、色はどう変わるかなどを求める必要がある。
米エヌビディアのAI半導体(記者会見するジェンスン・ファンCEO)=ロイター
米エヌビディアのAI半導体(記者会見するジェンスン・ファンCEO)=ロイター
 このためグラフィックス処理は数値計算を大量かつ並列に実施する。初期のGPUはグラフィックスの処理過程ごとに専用のハードウエアを置いて、そこで変換処理を施していた。これが90年代後半から汎用の演算器を使って計算する方式に変わった。そのほうが高速に処理できるからだ。エヌビディアはこうして用意した汎用の演算器を、いち早くグラフィックス処理以外の計算にも利用できるようにした。「クーダ」と呼ぶ独自のツールを用意して高速な計算処理に使えるようにしたのだ。
 AI、特に最近使われている深層学習は、非常に計算量が多い処理だ。深層学習では「ニューラルネットワーク」という、人間の脳を模した構造のモデルを使って学習する。複数のニューロンが並列かつ層状に並ぶ。このため、同じような計算処理を並列で実行しなければならない。こうした演算の特性が、GPUの特徴である並列処理が得意という特性にマッチしているわけだ。
■AI処理専用のハードウエアを実行時に使う
 だがもう少し詳細にAIの処理を見ていくと、AIでは多種多様な計算処理をしているわけではなく、行列演算を大量に実施している。これは、グーグルが公開しているAI用のツールキットが「テンサーフロー」という名称になっている点からも明かだ。テンサー(テンソル)とは数学的な定義はともかく、行列形式で表現できるデータだと思えばよい。深層学習では学習も推論も、行列が「流れて」演算を繰り返していくことによって進む。このことから「テンサーフロー」と名付けたのだろう。
AI半導体「TPU」では、行列演算処理部が重要な位置を占めている。左がブロック図、右が半導体の回路の配置(グーグルの論文から引用)
AI半導体「TPU」では、行列演算処理部が重要な位置を占めている。左がブロック図、右が半導体の回路の配置(グーグルの論文から引用)
 ちなみにグーグルのAIハードウエアであるTPUも、「テンサー処理ユニット」の略である。実際にTPUの論文を読むと、行列の積を求める演算器が中心的な役割を担っていて、「TPUマイクロアーキテクチャーは、このユニットをいかに忙しくさせるか」が重要であると記されている。またエヌビディアが最新のGPUアーキテクチャー「ボルタ」に追加したAIハードウエアも「テンサーコア」という名称が与えられている。これも行列演算を処理するためのハードウエアだ。
 もう一つAIにおける演算の特徴として、推論時(実行時)の演算精度をそれほど必要としない点がある。こうしたことから、実行時にGPUを用いるのはムダな面がある。専用の半導体に仕立てたほうが効率はよい。
 例えば自動運転車などを考えてみると、AIによる推論(実行)は即座にその状況に応じて実施されなければならない。スマホの顔認証なども同様で、画面を見たら即座に判断してほしいわけだ。
 いちいちインターネットを介して問い合わせているようでは判断に遅れてしまう可能性が出てくる。したがってこうした処理はできる限りスマホや自動車などエッジ(末端)側で実行できることが望ましい。
 だが一方で、エッジ側はクラウドにおけるサーバーと異なり、サイズや電力などに制約がある。特にモバイル機器などで重視される性能対消費電力を考えると、GPUを使うより効率のよい専用ハードウエアが得策だ。
 さらに効率を高めるなら、学習結果を実行するためのハードウエアを組んでしまう方法もある。そのために個別に大規模集積回路(LSI)を作成するのはコストがかかりすぎるので、ハードウエアの回路構成を動的に変更できる「DRP」や「FPGA」を採用する。汎用的な「計算処理」ではなく、対象とする処理に合わせた回路なので無駄がなくなり、消費電力はさらに低減できるというわけだ。
■既存のアーキテクチャーからの脱却目指すアプローチ
 こうした今までのCPUやGPUの延長にある技術を使うのではなく、根本的に発想が異なる技術を採用する動きもある。
 一つは日本ではデンソーが米シンクアイ(ThinCI)と共同開発している「DFP」。デンソーの説明によると、DFPは「多数の計算機を備えていて、複雑な処理の内容に合わせて、適切な計算機に配分して最適な計算処理を実行できる」という。同社によると「GPUにはできない複雑な処理をCPUより高速に処理する」ということだ。自動運転時代を見越したAI半導体で、「物体認識のような演算パターンが決まっている処理はGPUが向いているが、経路探索などの判断には演算パターンがまだ定まっていない。柔軟性の高いDFPが有効」という。
 これよりも革新的なアプローチを取ったのが「ニューロモーフィック」と呼ばれる手法。脳の構成自体を電子回路で再現しようという取り組みだ。インテルが17年10月に発表した「ロイヒ(Loihi)」や、米IBMが14年に発表した「トゥルーノース」などがこれに当たる。
 現時点ではまだ、ニューロモーフィックは研究段階にあり、具体的な応用事例などは出てきていない。深層学習のような、正解データ(教師データ)が必要な学習モデルでも使えるが、正解データが存在しない「教師なし学習」でも効果を発揮するという。実際、インテルは17年9月の発表時に、ロイヒを「自己学習型チップ」と紹介している。
(コンテンツ編集部シニア・エディター 北郷達郎)