案件ID:984343 人気案件

「AIによるSNS自動動画投稿システム」の見積もり依頼

システム開発会社 > 業務システム開発
比較ビズにてご発注実績のあるリピーター発注者様です。

開発種別

新規開発

発注形態

自社発注

システムの種類

情報サービス系

デザインの依頼

相談して決めたい

相談内容

NVIDIA RTX AI PCを導入して、AIによるSNS自動動画投稿システムを作ろうと思います。

複数のSNSに対応し、それぞれのSNSで言及の多いキーワードや、ニュースサイトの新規記事を基に投稿テーマを決めて、投稿を作成したいです。

ユーザーの指示に従い記事は量産され、スケジュール通り投稿されていくのが理想です。複数のSNSアカウントに異なる指示を出して並行展開したいです。

NVIDIA RTX AI PCのライバル(笑)GoogleのGeminiに実現可能か質問したところ可能であるとの回答と、システムの構成について以下の提案を受けたので転記します。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

【NVIDIAのRTX AI PCで構築したい「AI自動動画投稿システム」の構成】

1.司令塔 (AI Agent)
役割: 複数のAIを束ね、ユーザーの指示を受け取り、各AIへ命令を出すPythonプログラムなど。
ツール: LangChain や AutoGPT (Pythonで記述を想定)
2.構成作家 (LLM)
役割:指示を基にSNSの投稿やネットニュースを検索して情報を集め、台本とプロンプトを作成。
ツール: Ollama (Llama 3など) ※ローカルで動作
3.映像スタジオ (Video Gen)
役割: 指示のキャラクターや画風(LoRA)を適用し、プロンプト通りの動画を生成。
ツール: ComfyUI (APIモード) + AnimateDiff / HunyuanVideo
4.音声・音楽 (Audio Gen)
役割: 指示を基にナレーションとBGMを生成。
ツール: StyleTTS2 (音声) / AudioLDM (音楽)
5.編集・投稿 (Editor & Publisher)
役割: 映像と音声を結合し、YouTube/TikTokへアップロード。
ツール: FFmpeg (コマンドライン動画編集) + YouTube Data API

この構想は非常にエキサイティングで、現代の技術トレンド(ローカルLLM、画像生成AI、自動化)をフル活用した素晴らしいプロジェクトです。NVIDIA RTX AI PC(特にVRAM 12GB〜24GBクラスのGPUを想定)があれば、十分に実現可能です。
提示された構成案は**「機能するか?」という問いに対しては「YES」**ですが、実運用で安定稼働させるためには、いくつかの「ボトルネックの解消」と「現実的な代替案」が必要です。
特にVRAM(ビデオメモリ)の管理とSNSプラットフォーム側のAPI制限が最大の課題になります。
以下に、提示された案をベースに、より具体的かつ実現可能性を高めた「ブラッシュアップ版構成」を提案します。

この構想は非常にエキサイティングで、現代の技術トレンド(ローカルLLM、画像生成AI、自動化)をフル活用した素晴らしいプロジェクトです。NVIDIA RTX AI PC(特にVRAM 12GB〜24GBクラスのGPUを想定)があれば、十分に実現可能です。
提示された構成案は**「機能するか?」という問いに対しては「YES」**ですが、実運用で安定稼働させるためには、いくつかの「ボトルネックの解消」と「現実的な代替案」が必要です。
特にVRAM(ビデオメモリ)の管理とSNSプラットフォーム側のAPI制限が最大の課題になります。
以下に、提示された案をベースに、より具体的かつ実現可能性を高めた「ブラッシュアップ版構成」を提案します。
________________________________________
???? ブラッシュアップ後のシステム構成案


元の構成に「情報収集」と「リソース管理」の視点を加え、より堅牢にしました。
1.司令塔 (Orchestrator)

役割: 全体の進行管理、エラーハンドリング、VRAM管理。

改善点: AutoGPTは自律性が高すぎて制御不能になりがちです。LangGraph (LangChainの拡張) を採用し、明確なワークフロー(状態遷移)を定義することをお勧めします。「記事検索→執筆→動画生成」という定型業務にはこちらの方が安定します。

推奨ツール: Python + LangGraph
2.調査員 (Researcher) 【新規追加】

役割: 元の案では「構成作家」に含まれていましたが、LLM単体ではリアルタイムのWeb検索はできません。検索とスクレイピングを行う専門モジュールが必要です。

推奨ツール: DuckDuckGo Search API (Pythonライブラリ) または Tavily API (AIエージェント向け検索API)。これをLangChain経由でLLMにツールとして渡します。
3.構成作家 (Screenwriter)

役割: ニュースやトレンドを読み、台本とComfyUI用のJSONプロンプトを作成。

改善点: 日本語性能と指示追従性を重視するなら、Llama 3に加え、Gemma 2 27B や Qwen 2.5 も検討候補です。これらもOllamaで動きます。

推奨ツール: Ollama (Model: Llama 3.1 8B または Qwen 2.5 14B/32B)
4.映像スタジオ (Video Gen)

役割: 動画生成。

改善点(重要): HunyuanVideoは非常に重いです。RTX 4090 (24GB) でも単体動作がやっとで、他の処理と並行できません。
o
現実解: AnimateDiff-Lightning (高速・軽量) または CogVideoX-5B (比較的高画質だが重い) を使い分けます。
o
LoRA: キャラクター固定のためにLoRAは必須です。

推奨ツール: ComfyUI (API Mode) + AnimateDiff Lightning (SD1.5ベース) / Checkpoint: Anime系
5.音声・音楽 (Audio Gen)

役割: ナレーションとBGM。

改善点: StyleTTS2は高品質ですがセットアップが複雑な場合があります。最近は CosyVoice や ChatTTS など、より自然な対話ができるモデルが出ています。BGMは生成に時間がかかるため、フリー素材サイトのAPI活用も検討すべきですが、生成にこだわるならAudioLDM2より**Stable Audio Open**の方が音楽的品質が高いです。

推奨ツール: CosyVoice (音声), Stable Audio Open (音楽)
6.編集・投稿 (Editor & Publisher)

役割: 結合とアップロード。

改善点: YouTube APIはクォータ(割当制限)が厳しく、TikTokやInstagramは公式APIによる自動投稿のハードルが非常に高い(ビジネス審査など)です。
o
現実解: APIが使えない場合、Selenium や Playwright を使った「ブラウザ操作による自動投稿」を実装する必要があります。

推奨ツール: MoviePy (FFmpegのPythonラッパーで扱いやすい), Selenium (ブラウザ自動化)
________________________________________
???? 重要な技術的課題と解決策
このシステムをPC1台で動かすための最大の鍵は**「リソースの排他制御」**です。
1. VRAMの「逐次処理」システムの構築
LLM(数GB)、画像生成(数GB〜10GB超)、音声生成(数GB)を同時にメモリに載せると、24GBのVRAMでも即座に溢れます。

対策: 司令塔(Pythonプログラム)が、「LLMをロード→テキスト生成→LLMをアンロード→ComfyUIを起動→動画生成→終了」というように、モデルの出し入れ(Load/Unload)を厳密に管理する必要があります。

Ollamaはkeep_aliveオプションで制御可能です。ComfyUIもAPI経由でキューを送る際にメモリ管理を意識する必要があります。
2. 動画の一貫性 (Consistency)
「AI自動動画」で最も視聴者が離脱するのは、カットごとにキャラクターの顔や服が別人のように変わることです。

対策:
o
IP-Adapter: 参照画像(キャラクター設定図)を読み込ませて、顔や服装を強力に固定するComfyUIの拡張機能を使用してください。LoRAだけよりも安定します。
o
OpenPose: 棒人間で動きを指定し、破綻を防ぎます。
3. ニュースソースの選定
「SNSで言及の多いキーワード」を正確に拾うのは、X (Twitter) のAPI有料化以降、非常に難易度が高いです。

対策:
o
Google Trends API (pytrends): 急上昇ワードを掴むのに最適。
o
RSS Feed: 特定のニュースサイト(Yahooニュース、GIGAZINEなど)のRSSを解析する方が確実です。
________________________________________
????️ 開発ステップの提案
いきなり全自動を目指すと挫折します。以下のフェーズに分けて開発することをお勧めします。
フェーズ
目標
使用ツール
Phase 1
「手動トリガーで動画生成」


テキストを入れると、ComfyUI APIを叩いて動画が保存されるまでを作る。
Python, ComfyUI, AnimateDiff
Phase 2
「台本・プロンプトの自動化」


ニュースURLを渡すと、LLMが台本とComfyUI用プロンプトを吐き出す。
Ollama, LangChain
Phase 3
「完全自動化とスケジュール」


トレンド取得から投稿(または予約状態)までを繋げる。
Task Scheduler, Selenium
________________________________________
結論
あなたの構成案は非常に筋が良いですが、PC1台で完結させるなら**「HunyuanVideoのような超重量級モデルは避け、SD1.5/SDXLベースのAnimateDiff Lightning等で高速回転させる」**のが成功への近道です。また、API制限を回避するためのブラウザ自動化技術も視野に入れてください。
まずは、「Phase 1:PythonからComfyUIを操作して、動画を1つ生成する」ところから着手しませんか?

発注状況

情報取集の段階

総額予算

相場が分らない

対応方法

見積りが欲しい

お客様情報

お客様情報