テキストファイルからプログラマブルに動画を生成するツール Slide with voice(vox)の紹介

公開日: 2025-03-01

Slide with voice(vox) リリースのお知らせ

寺島和宏 (howlrs)が開発した「Slide with voice(vox)」をリリースしました。テキストとスライド画像から、ナレーション付き動画を自動生成できるツールです。プレゼンテーション資料の説明動画やサービス紹介動画など、多彩なシーンで活躍します。

こんな方にオススメ！

「パワポは作ったけど、説明動画を作るのが面倒…」と感じているビジネスパーソン
動画編集ソフトを使わずにナレーション付き動画を作りたい方
研修資料や製品紹介をわかりやすく動画化したい担当者
個人・小規模チームでコスト低く動画を量産したいクリエイター

テキストファイルを書くだけで動画が完成するので、動画編集の知識はゼロでも大丈夫です！

主な特徴

簡単操作

画像・動画ファイルと読み上げテキストを用意するだけで、ナレーション付き動画が自動で完成します。難しい設定や専門ソフトは一切不要です。

多彩な音声合成エンジンに対応

Voicevox と AivisSpeech の両エンジンに対応しており、キャラクターや話し方を自由に選択できます。感情豊かなナレーションでコンテンツの質をぐっと高められます。

動画ファイルに一括出力

読み上げテキストがどれだけ長くても、スライドごとに自動でまとめて1本の動画ファイルに書き出します。手作業でのカット編集は不要です。

技術的な詳細

Slide with voice(vox) は Rust で実装されており、高速かつ軽量に動作します。音声合成はローカルで動作する Voicevox / AivisSpeech の HTTP API を経由して行うため、インターネット接続なしでも利用可能です。生成した音声クリップとスライド画像を自動的に合成し、MP4形式の動画ファイルとして出力します。

使い方イメージ

スライドに使用する画像や動画クリップをフォルダに準備する
resource.txt にファイル名と読み上げたい文章を記載する
Voicevox または AivisSpeech をローカルで起動しておく
コマンドを実行して動画を一括生成する

たったこれだけで、ナレーション付きのスライド動画が完成します！

ダウンロード・入手方法

GitHub Releases からビルド済みのバイナリをダウンロードできます。Windows・Mac・Linux に対応しています。

GitHub Releases — howlrs/slide_with_voice

リポジトリの README に詳細なセットアップ手順と resource.txt の書き方が記載されているので、合わせてご確認ください。

今後の予定

口パクキャラクターのオーバーレイ表示
スライドデザインのカスタマイズ機能
複数音声エンジンの同時利用

ぜひ試してみて、動画づくりの効率化にお役立てください！

お問い合わせ

不明点や改善要望がありましたら、お問い合わせフォームまたはソフトウェアエンジニア・寺島和宏の X アカウント @xhowlrs までお気軽にご連絡ください。皆さまのフィードバックをお待ちしています！