本稿は、日本のアニメ制作スタジオおよびAIスタートアップへのインタビューに基づき、業界データと学術研究を加えて構成しています。
アニメは、かつてない規模のグローバルブームを迎えています。一般社団法人日本動画協会(AJA)の報告によると、2024年の世界アニメ市場は過去最高の3兆8,400億円(約251億ドル)に達し、前年比14.8%の成長を記録しました。海外売上が全体の56%を占めるに至っています。Crunchyrollの有料会員数は2024年に1,500万人を突破し、2021年の3倍となりました。Netflixは、全世界の会員の半数以上が昨年アニメを視聴したと報告しています。あらゆる指標から見て、これは驚異的なスピードで成長する市場であり、業界予測は2030年までのCAGR 9.11%に収斂しています。Parrot AnalyticsやBernsteinのアナリストの中には、国際アニメストリーミング市場単体で125億ドルへと3倍になると予測する向きもあります。
図1:2019年から2024年の世界アニメ市場売上(AJA年間報告書)。海外売上は2023年に初めて国内を上回り、現在は全体の56%を占めています。
しかし、もし今日アニメシリーズを制作しようとすれば、評判の良いスタジオの制作枠を確保するだけでも2〜3年待ちが必要です。企画からオンエアまで、ゼロからシリーズを制作するには4〜5年かかります。ボトルネックは供給にあるように見えます。需要を満たすだけの熟練したアニメーターが単純に足りないのです。しかし、以下のデータが示すように、制約は二重構造になっています。この業界は、経済構造の破綻――抑圧された賃金、薄い利益率、急拡大する収益を不均等に分配するビジネスモデル――という問題も抱えており、供給ギャップを埋めうる人材の拡大そのものを阻害しているのです。この二重の制約を理解することが、業界がなぜAIに向かっているのかを読み解くうえで不可欠な文脈となります。
アニメは比較的若いメディアであり、独自の美学体系を持っています。アニメとともに育った世代は視聴を止めず――1970年代生まれのファンの多くが今でもアクティブな視聴者です――各世代が新たな視聴者を加え続けています。この視聴者数の複利的成長と、ストリーミングプラットフォームのグローバルリーチが相まって、現在の制作モデルでは埋めることのできない需給ギャップが生じています。
アニメ制作は想像以上に労働集約的である
供給サイドは巨大な構造的課題に直面しています。アニメ制作は――2D手描きであれ3D CGであれ――外部の人間が想像する以上に労働集約的です。次にアニメのエピソードを観る際、エンディングクレジットに注目してみてください。24分のエピソード1話分のスタッフリストは驚くほど長いことがわかります。複数の下請け企業がそれぞれ数百人を擁し、特定の工程を担当しています。一般的なエピソードは、約300カットにわたって約3,000枚の手描き原画を必要とし、100人以上が2ヶ月かけて制作します。アクションの多いエピソードでは5,000〜10,000枚の作画が必要になることもあります。2009年の映画『REDLINE』は、7年の歳月をかけて100,000枚をすべて手描きで制作しました。
図2:アニメ制作パイプライン。AIが試験的に導入または実用化されている工程はオレンジ色でハイライトされています。大半の工程は依然として手作業が中心です。
アニメ業界の工業化の度合いは、私が予想していたよりも低いものでした。わずか数秒のキャラクターの動きであっても15〜30枚の手描き原画が必要です。1話あたり数千枚の原画が容易に必要となります。これは直感に反する経済的現実をもたらします。アニメの秒単位の制作コストは、実写ドラマを上回ることがあるのです。『週刊東洋経済』の業界データによると、TVアニメ1話の制作費は3,120万円(約224,000ドル)であり、『鬼滅の刃』や『呪術廻戦』などのハイエンド作品ではさらに高額になります。参考までに、アニメTVの制作費は1分あたり約5,700〜10,000ドルであり、一見安価に思えますが、実際の俳優と実際のセットを使う日本の実写テレビドラマの方が、スクリーンタイム1分あたりのコストが低い場合があることを考えると、その見方は変わります。
図3:メディアタイプ別の分あたり制作コスト比較。アニメは欧米の劇場用アニメーションの10〜40分の1ですが、秒あたりの制作コストは日本の実写テレビドラマを上回ることがあります。これは手描き作画の膨大な物量に起因する、直感に反する結果です。
このような労働集約的な制作にもかかわらず業界が成り立っているのは、ひとえに深刻に抑圧された賃金があるからです。2023年のJAniCA(日本アニメーター・演出協会)調査では、動画マンの平均年収はわずか263万円(18,200ドル)であり、20〜24歳の労働者は197万円(14,660ドル)、全サンプルの月間平均労働時間は約198時間でした。別途、2024年のNAFCA(新アニメ・映画クリエイター協会)調査では、若手アニメーターの数値はさらに高く、月間中央値225時間(平均219時間)と報告されており、これは日本の全国平均を37%上回っています。
2023年、国連のビジネスと人権に関するワーキンググループは、訪日調査後の声明において、アニメ業界の労働者が低賃金、過剰な労働時間、クリエイターを搾取に対して脆弱にする不公正な契約慣行に直面していると指摘しました。帝国データバンクは、アニメスタジオの倒産が3年連続で増加していることを明らかにし、元請・グロス請のうち2024年に増収となったのはわずか40%――アニメ関連企業全体の42.9%をも下回る数字でした。業界団体自身がこの状況を*「忙しいが儲からない」*と表現しています。
図4:アニメ業界における役職別年収(JAniCA 2023年調査)。最も一般的なエントリーレベルの役職である動画マンは、全国平均を大きく下回る年収です。破線は、全アニメ労働者の約40%が該当する閾値を示しています。
アニメ制作におけるAIの3つのアプローチ
私が収集したインタビューや事例は、アニメ制作へのAI統合に対する3つの大きなアプローチ――生成型、分析型、調整型――に分類されます。これらのアプローチは相互に排他的ではなく、一つのスタジオが同時に複数を追求することもあり、その境界線は曖昧です。しかしこの区分が有用なのは、それぞれのアプローチが根本的に異なる障壁と機会に直面するからです。
図5:日本のスタジオおよびスタートアップへのフィールドインタビューに基づく、アニメ制作におけるAIへの3つの異なるアプローチを理解するためのフレームワーク。
タイプ1:既存パイプラインを拡張する伝統的スタジオ
第一のカテゴリーは、既存の制作ワークフローにAIを統合する方法を積極的に模索している老舗アニメスタジオ――多くのファンが名前を知っているようなスタジオ――で構成されています。私が話を聞いたすべてのスタジオがAIに関心を持っていましたが、その動機は共通の供給側の圧力です。需要に対して熟練したアニメーターが圧倒的に不足しており、制作枠を待つマンガやライトノベルの原作のバックログは膨らみ続けています。複数のスタジオが、人材不足を主因として2026年にまで及ぶスケジュールの遅延やプロジェクトの延期について語りました。
しかし、AIはクリエイターの間で極めてセンシティブなトピックであり、これらのスタジオが実験を公にすることは稀です。非公開の探索と公の姿勢の間には大きなギャップがあります。東映アニメーションが2025年4月30日にAI企業Preferred Networksへの出資を発表した際、5月に噴出した反発は非常に激しく、同社は財務プレゼンテーションからAIデモ画像を削除し、現在の制作において*「AI技術を使用していない」*との釈明を発表するに至りました。
これらのスタジオが最も直感的に探索しているのが、AI生成中割り(中割)です。アニメ制作において、原画と動画(中割り)は別の職種です。経験豊富な原画マン(原画担当)がキーとなるポーズ――キャラクターがコーヒーカップを取り上げ、唇に運び、一口飲む――を描き、若手のアニメーターがそのポーズの間のフレームを埋めます。動画は原画に比べて技術的要求が低いため、膨大な研究の注目を集めてきました。多くの学術論文やスタートアップがAIによる中割り生成の能力を実証しており、基礎的なAnimeInterp(CVPR 2021)からToonCrafter(SIGGRAPH Asia 2024、Tencent AI Lab)まで、非線形運動やディスオクルージョンを扱える生成拡散アプローチが登場しています。
しかし、現実は厳しいものでした。私が訪問したスタジオでは、AIによる中割り支援がテストされたものの、結果は不安定でした。出力品質が安定しないため、AI生成のすべての中割りに厳密なチェックと修正が必要であり、品質管理に費やす時間が時間短縮効果を事実上相殺してしまっていました。あるベテラン原画マンはこう端的に語りました。
「中割りは10人の新人に任せます。一人一人に何が問題でどう直せばいいか的確に指示できます。提出するたびに上手くなっていきます。でもAIだと、求めているものが出てくる保証がないし、制作を先に進められないこともあるんです。」
これはより根深い問題を示しています。多くのアニメ監督は強烈な美学的信念を持ち、ツールに対して100%のコントロール性を要求します。現段階では、AIはそのレベルのきめ細かな制御を提供できません。アニメの視覚文法の核心的要素――タイムシート(イーズイン・イーズアウトのための不均一なフレーム間隔)、スミア(ブレ)フレーム(スピード感を伝えるために意図的に歪ませた作画)、インパクトホールド(劇的な強調のためにフレーム間で頭が90度回転するような表現)、セカンダリーモーション(袖や髪が物理法則に基づく遅延で追従する動き)――にAIは苦戦しています。AIはスミアをアーティファクトとして修正しようとし、ドラマティックなホールドを無意味な中間動作で埋めてしまいます。その結果、現状のAI中割りは、芸術的コントロールのある程度の喪失が許容されるトレードオフとして受け入れられる、極めて予算の厳しいスタジオに限定されています。
商用の中割りツールも存在します。Nanyang Technological Universityで開発されたCACANiは、david productionの『はたらく細胞』で使用され、最大70%の時間削減を報告していますが、これは主にエフェクトアニメーション(炎、煙、爆発)と単純な動きに対してであり、複雑なキャラクター演技には適用されていません。SonyのAnimeCanvasは開発段階にあり、A-1 PicturesとCloverWorksでの試験運用で彩色ワークフローのクリック数を約15%削減しました。これらは意味のある、しかし限定的な改善であり、制作プロセスの核心を変革するものではありません。
タイプ2:生成AIの実験――スタイル変換からパイプラインの再構想へ
第二のアプローチを定義するのは、企業の種類ではなく志向性です。タイプ1のように既存の一工程にAIを挿入するのではなく、生成モデルを主要な制作手段として実験的に用いる試み――パイプライン全体の工程を根本から再考するものもあれば、それがまだ機能しない理由を発見するものもあります。このグループにはAIネイティブのスタートアップが含まれますが、根本的に異なる手法を試す既存のスタジオや製作委員会も含まれます。共通する問いは「生成AIが今日できることを出発点として、どのようなアニメを作れるか?」です。
一般的な手法の一つが実写映像からアニメへの変換です。実際の俳優を撮影し、モーションキャプチャとニューラルスタイル変換を通じて映像を処理し、アニメスタイルのビジュアルを出力します。Luma AI、DomoAI、Komikoなどのツールが、特定のスタイルプリセットによるワンクリックのアニメ変換を提供しています。CreateAI(元TuSimple――自動運転トラック企業から2024年12月にAIアニメーション企業へピボット)はAnimon.aiというアニメ特化の映像生成プラットフォームをローンチしました。BilibiliはAniSoraをリリースしました。1,000万以上のクリップで学習されたオープンソースのアニメ映像生成モデルです。
しかし、このアプローチの限界はアウトプットに即座に現れます。アニメの視覚的な力は、意図的な誇張表現に由来します。口が不自然なほど大きく開いてニヤリと笑うときにほぼ目に届くような、あの典型的なアニメ的表現。叫ぶときにキャラクターの頭が歪む様子。走るサイクルでの誇大なバウンス。これらは、人間の俳優からモーションキャプチャで記録できるような自然な動きではありません。アニメの芸術的語彙は物理的現実からの乖離によって定義されており、実写映像からのスタイル変換は本質的にリアリズムの方向に引き寄せられます。これはアニメが求めるものとは正反対です。モーションキャプチャデータの大幅な手作業による修正がしばしば必要となり、ゼロからのキーフレームアニメーションよりも時間がかかることもあります。
生成モデルが今日確かに説得力のある成果を出しているのは静止背景の生成です。背景は時間的一貫性を必要としない単一の画像であり、diffusionモデルが得意とする環境パターンに依存し、キャラクターアートよりもはるかに小さな不整合を許容します。東映アニメーションとPreferred NetworksはScenifyを開発しました。写真をアニメスタイルの背景に変換するツールで、前処理時間を従来の方法の6分の1に短縮しました。(Scenifyは、タイプ1の既存パイプライン拡張としても分類しうるものです――東映は伝統的スタジオであり、一つのパイプライン工程に生成ツールを挿入しています。ここに配置したのは、ツールの生成的な性質を反映したものであり、スタジオの組織的スタンスを反映したものではありません。3つのアプローチが実際には重複しうることを示す好例です。)
背景以外にも、より広範なAI活用ワークフローを実験した作品があります。2025年春アニメ『ツインズHinaHima』は、95%以上のカットでAI支援による制作を行いました。背景だけでなく複数のパイプライン工程にわたり、人間のアーティストが全フレームに最終的な修正とタッチアップを施しています。これは放送アニメにおけるAIの最も広範な活用事例の一つですが、業界標準というよりは例外的な存在にとどまっています。
ただし、これが経済的にどのような意味を持つかについては、冷静な視点を保つ必要があります。背景美術は視覚的に重要ですが、全体の制作コストにおいて支配的な割合を占めるわけではありません。例外的な事例として挙げられるのが新海誠監督です。その作品は卓越した背景美術――『君の名は。』や『すずめの戸締まり』のフォトリアリスティックで感情的に訴えかける環境描写――で知られています。『君の名は。』の背景を手がけた草薙のようなスタジオは、大気遠近法や建築ディテールにおいて数十年の修練を積んだアーティストを擁しています。AnimeGANv2のようなAIモデルは新海監督の作品を明示的に学習データとしており、単一画像においてはその大気感やカラーパレットを近似できます。しかし、新海監督の背景にはナラティブ上の意味が込められています――キャラクターの心理を反映する特定の光、天候、環境のディテールです。この意図性を一つの作品全体にわたって一貫して再現することは、現在のAIの能力を超えています。そして、そこまで高いレベルの背景品質を追求しないスタジオにとっては、AI背景によるコスト削減は実在するものの、全体の制作予算に対しては控えめなものです。
タイプ3:監督のアシスタントとしてのAI
第三の、そしておそらく最も興味深いカテゴリーは、AIを画像やアニメーションの生成には一切使わず、監督を補助する評価・調整レイヤーとして活用するアプローチです。アニメ制作では、膨大な数の意思決定が監督に集中します。絵コンテの評価、原画カットのチェック、カラーパレットの承認、テンポの評価、部門間の調整。監督が究極のボトルネックとなるのは、仕事が遅いからではなく、あらゆる創造的判断が監督を通過するからです。
私がインタビューした複数の企業が、この評価プロセスを加速するために分析型・予測型AIを導入しています。AIは一枚のフレームも描きません。代わりに、人間のアーティストの作品をより効率的に評価し、優先順位をつける作業を監督が行うのを支援します。具体例としては、過去の視聴者エンゲージメントデータに照らして絵コンテの構図を分析し、テンポに関する潜在的問題をフラグするAIツールや、リップシンクのタイミングやモーションブラーのパラメータに関するルーティン的な計算を自動化するポストプロダクションパイプラインが挙げられます。これらは技術的にはパイプラインの一部でありながらアートワークの生成を伴わないタスクであり、監督を反復的な技術レビューから解放するものです。(注:このカテゴリーにおける具体的なスタジオの実装例は匿名条件のもとで共有されたため、ここでは社名を明かすことができません。)
これは真に興味深いAIの応用であり、生成画像に伴う最も深刻なコントロール性の問題を大部分回避しています。AIは視覚的コンテンツを生成しているのではなく、人間のクリエイターが他の人間の創造的アウトプットを評価・管理することを支援しているのです。とはいえ、テンポの問題をフラグしたりタイミングパラメータを自動化するツールは、不可避的にある程度は創造的な成果に影響を与えます――コントロールの問題は軽減されてはいますが、完全に消滅したわけではありません。それでもタイプ1やタイプ2と比較すれば、芸術的リスクは大幅に低くなります。監督は最終的な判断権を保持し、AIの役割はルーティン的またはデータ分析に適した評価に費やす時間を削減し、真の芸術的ビジョンを要する意思決定に監督が集中できるようにすることにあります。
オーディオの最前線:音声AIはすでに閾値を超えた
上記の議論はすべて、アニメ制作の視覚的側面に関するものです。しかし、AIがはるかに進歩しているもう一つの領域があります。オーディオです。
音声AIは映像系AIと比べてはるかに成熟しています。ナビゲーション音声、バーチャルアシスタント、ショートフォームコンテンツといった特定の商用領域では、AI生成音声を一般のリスナーが人間のパフォーマンスと区別することが困難なレベルに達しています。(音楽AIも急速に進歩していますが、異なる課題群に直面しており、本稿の範囲外とします。)そして決定的に重要なのは、音声AIをめぐる中心的な議論がすでに技術から経済へシフトしていることです。「AIは人間の声を再現できるか?」(できます)から、「AI音声技術と、音声の仕事に生計を依存する人間のパフォーマーとの間の経済的・倫理的関係はどうあるべきか?」へと。
最近、多くの著名な声優がAIに対して公に声を上げています。2024年10月、日本の著名な声優26名――中尾隆聖(フリーザ役)、山寺宏一(スパイク・スピーゲル役)、梶裕貴(エレン・イェーガー役)、朴璐美(エドワード・エルリック役)を含む――が「No More 無断生成AI」キャンペーンを発足しました。中尾氏はアナウンス動画の冒頭でこう語りました。「誰かが私の声を無断で販売していました。衝撃でした。私たちの声は私たちの生活の糧です。命そのものです。」 日本俳優連合の調査では、267人の声優の声がYouTubeやTikTokなどのプラットフォームで無断使用されていたことが判明しました。
米国では、SAG-AFTRAの2023年の118日間のストライキにより、明確な保護が獲得されました。スタジオは、パフォーマーの音声のデジタルレプリカを、本人のインフォームドコンセントと各使用ごとの報酬なしに作成・再利用することはできません。日本では法的枠組みがより曖昧なままです。著作権法第30条の4は、表現そのものの「享受」を目的としない利用について著作物の使用を認めており、多くのAI学習シナリオをカバーすると解釈されてきました。ただし、文化庁は二つの重要な制限を明確にしています。その利用が真に非享受目的であること、そして「著作権者の利益を不当に害する」ものでないことです。これらの例外規定の実際の適用範囲は依然として争いがありますが、この規定は日本をAI学習の目的において比較的AI親和的な国にしていると広く認識されています。
注目すべきは、声優たちのキャンペーンがAIに対して全面的に反対しているわけではないということです。声明には次のように含まれています。「新しい技術は人類に大きな恩恵をもたらしうるものです……この技術の活用方法について一緒に考えていきたいと思います。」 梶裕貴氏のSoyogi Fractalプロジェクトは、クリエイターが公式に彼の声を使用できる仕組みを提供しています。青二プロダクションはCoeFontと提携し、野沢雅子氏(悟空役)のAI複製音声を、バーチャルアシスタントなどの非パフォーマンス用途で提供しています。2025年11月、日本俳優連合はJ-VOX-PROを発足しました。デジタルウォーターマークと声紋認証を備えた公式音声データベースであり、同意に基づくAI音声利用のための制度的インフラを構築する試みです。
音声AIはすでに単なる「ツール」の段階を超えています。一つの職業全体の経済的基盤を直接脅かす力となっています。これは、アニメ業界がそう長くは回避できない、居心地の悪い問いを提起します。
視覚AIは、音声AIが声優に対してすでに突きつけているのと同種の存在的脅威を、アニメーターに対してもいずれもたらすのだろうか?
技術の発展曲線は、同様の制度的道筋をたどる可能性を示唆していますが、そのタイムラインと帰結は不確実です。映像生成モデルは急速に改善しています。Runwayは現在30億ドルの評価額に達し、テキストプロンプトからアニメスタイルのシーケンスを生成できます。ToonCrafterは生成拡散によりキーフレーム間を補間できます。BilibiliのAniSoraは1,000万のアニメクリップで学習されました。現時点では、これらのツールの出力は放送品質にはるかに及びません。本稿で論じてきたように、視覚AIが直面するコントロール性、時間的一貫性、アニメ文法に関する課題は、音声AIが直面したものとは質的に異なり、そしておそらくより困難なものです。音声は単一チャンネルの時間的に連続した信号ですが、アニメーションは多層的で意図的に不連続な芸術表現です。
しかし、ここで決定的に重要な点があります。ガバナンスの問題は、技術の成熟を待ってくれません。視覚AIが放送品質の制作にはまだ不十分な段階にあっても、上流の課題――学習データに対する権利、芸術スタイルに関する同意のフレームワーク、AIモデルの学習データとなる作品を制作するアニメーターへの契約的保護、そしてすでに水面下で実験を進めているスタジオにおけるワークフローガバナンス――はすでに現実の課題として存在しています。音声AIの経験が示しているのは、技術が品質の閾値を超える頃には制度的空白がすでに固定化され、事後の是正がはるかに困難になるということです。とはいえ、音声AIの前例は示唆に富みます。音声AIもまた、ある日突然そうでなくなるまで「不十分」とみなされていました。アニメ業界は、声優の世界がこの変遷をどのようにナビゲートしたか――組織的な抵抗、同意のフレームワーク、制度的対応――を研究することが賢明でしょう。なぜなら、視覚AIもいずれ同様の答えを求めることになるかもしれず、予防的な準備のための時間的猶予は見た目以上に短いからです。
図6:AI × アニメの主要なマイルストーン。初期のスタイル変換研究から今日の業界全体の議論まで。学術研究(青・オレンジ)が産業界での採用(紫)およびクリエイターの抵抗(赤)と交差する軌跡を示しています。
本レポートは、2024年〜2025年に日本のアニメ制作スタジオおよびAIスタートアップに対して実施したフィールドインタビューに基づき、日本動画協会(AJA)、帝国データバンク、JAniCA、および公開された学術研究の業界データを補足して構成しています。スタジオレベルの詳細は、要請に応じて匿名化しています。
