TTS Subtitle Voice Maker 説明


概要

「TTS Subtitle Voice Maker」とは、誰でも簡単に合成音声付字幕を作成できる、まったく新しいコンセプトの字幕製作ツールです。
一般的に字幕製作とは、映像や音声が先にあって、後から字幕を編集するものですが、本ツールは逆のシステムです。
字幕となるナレーション原稿が先にあって、後から映像を付けていく作成手順を想定してます。
本ツールは2つのツールから構成されます。

1.TTS Subtitle Voice Maker(以下Maker)
 ナレーション原稿から字幕の文節の分割
 文節を合成音声によって文節ごとのMP3のオーディオファイルへ変換
 

2.TTS Subtitle Voice Maker Player(以下Player)
 1の作業で作成された文節を字幕として表示する
 字幕の装飾や表示タイミングの調整
 

デモサイトTTS Subtitle Voice Maker
この2つのツールはWebブラウザで表示します。動作させるにはWebサーバーソフトウェアおよびPython動作環境が必要です。インストールが簡単な簡易Webサーバーについては後述します。
2のPlayerにつきましては、表現手法によっていくつか異なる複数のPlayerがあります。カスタムプレーヤーも含めることが可能です。
本ツールはCGI(Python),HTML,Javascript,CSSのWeb技術で作成されております。

音声合成

Google Cloud Platform Text-to-Speech
いわゆるText-To-Speech(TTS)のエンジンは、Google Cloud PlatformのWebサービスを利用することが前提です。従いまして、1のMakerでMP3ファイル変換を行うにはインターネットへの接続が必要です。
また、Google Cloud PlatformのWebサービスは基本的には開発者登録をして利用する有償サービスですが、2021年12月現在は無料枠があり、その無料枠を有効に利用することも本ツールの目的です。
開発者登録を行って、Google Cloud PlatformのTTSを利用する設定を行うことでAPIキーが発行されます。そのAPIキーを本ツールに登録する必要があります。
2021年12月現在はGoogle Cloud PlatformのWebサービスは試用期間があるようです。試用期間後は、APIは使えなくなりましたが、再度アクティベートして有効化を行うことで利用できます。
このあたりの無料・有料の表記が分かりにくいのが難点なのですが、料金は無料枠+従量制となっているようで、無料枠を使うぶんには基本料金はかからないと思います。
本ツールのデモページでは、APIキーを登録しなくても動作体験ができます。

動作OS

サーバー環境:Windows,macOS,Linux
ブラウザ環境:Windows,macOS,Linux,Android
ブラウザ表示はiOS,iPadOS以外で動作します。2021年現在、iOS,iPadOSではHTML5のオーディオファイルの再生終わりがJavascriptで検知できないため、Playerを動作させることができません。

ダウンロード

"TTS Subtitle Voice Maker" 一式ダウンロード
tts103.zip
解凍してご利用ください。フォルダ構成は後述。macOSやLinux系の場合はフォルダやファイルに適切な権限を付ける必要があります。
documentroot/ttstop/cgi-bin/tts.pyの1行目は環境によって編集する必要があります。(後述)
documentroot/ttstop/cgi-bin/userdefine.pyはご利用される方、自身のGoogle Cloud APIキーを設定する必要があります。また、各制限の数値を編集してください。(後述)

本ツールの制限

映画字幕のsrtフォーマットやそれに類する字幕用のフォーマットには対応しておりません。
また、本ツールから動画ファイルへの書き出しは機能としてありませんので、他の動画編集ソフトウェア(OBS Studio等)で動作しているWeb画面を画面キャプチャする必要があります。
キャプチャされた字幕動画と映像を合成するためには他の動画編集ソフトウェア(OBS Studio等)でクロマキー合成等の作業が必要です。

利用シーン

VTuberで自分の声を使いたくない場合は本ツールが大変有用です。
音声合成の漫才や落語とかも良いのではないでしょうか。文字装飾だけでもかなりのものが作れます。
音声付き字幕はループ再生させることができます。ブラウザ画面をそのまま販売促進のPOPとして利用することが可能です。字幕の変更もすぐにできます。
ナレーション読み上げ動画の製作。縦書き表現も可能です。文節ごとに異なる声の種類を使うことができるため、会話劇も簡単に製作できます。
文節ごとにスタイルを設定できますので、文字で構成されたタイトル画面などの静止画作成にも利用できます。
MP3ファイルはダウンロードできますので、音声合成だけ行いたい場合も便利です。
一般的な、後から字幕を追加する場合でも、本Player画面をキャプチャして、表示タイミングだけ調整する編集を行うことで利用することができます。

簡単チュートリアル


使ってみましょう。実際に動作するデモ画面を用意してます。
こちらのTTS Subtitle Voice MakerをクリックしてMaker画面を表示させます。

下のテキストエリアに、下の文章を入力してください。コピーペーストでも結構です。
今日は私は音声合成です。
今日から字幕は簡単です。
楽々です。
と入力してみましょう。

次に、テキストエリア少し上の半角のENTERのチェックボックスをチェックします。ここは文節の区切り記号を指定します。ENTERとは改行の意味です。

次に[Upload and split with dellimiter]ボタンを押します。これで上部に文節に分けられてリストが作成されました。

次に、文節のリストの上部(NOの欄の上)に2つのチェックボックスがありますので、上のチェックボックスを押すとすべての文節にチェックが入ります。

次に、文節のリストの上部の[Checked text to MP3 using NewVoice]ボタンを押します。これで数秒で音声合成のMP3ファイルが作成されます。実際にGoogle Cloud Platformのサーバーを利用してます。

確認してみましょう。
各分節の一番右横の欄に、[Audio Player]ボタンがありますので、それを押すと、オーディオコントローラーが表示されますので、再生すると音声が流れるはずです。

おそらく、1行目のはじめは、"きょうは"と発声していると思いますので、これを"こんにちは"と発声させてみます。
"今日は私は音声合成です。"と2つ表示されているうちの下が音声用ですので、下を"こんにちは私は音声合成です。"と変更してみてください。

その横の[VoiceName]ボタンを押しましょう。この行だけ音声変換されます。先ほどの手順でオーディオコントローラを表示して再生すると、発声が変更されていると思います。

さて、今回は、ここまでで、Makerを終わります。次にPlayerを見てみます。

文節リストの上に"player index"というリンクがありますので、クリックしてください。

いくつかPlayerへのリンクが表示されたと思いますが、今回は一番上のttsshow01.html(normal)をクリックしましょう。



編集パネルが出たと思います。文節情報と音声ファイルをロードするために、中央左の[Load resource]ボタンを押します。
数秒でロードされると思います。


次に、その横の[Play]ボタンを押すと、文節ごとに再生されます。(2021年現在iOS,iPadOSでは連続再生できません)

横のスライダーバーを移動させると、文節のフレームが移動できます。

文字の大きさを変えてみましょう。編集パネルのグレーの部分、上段に"Font Size"がありますので、初期値の30から50にしてみます。

そして、その左欄の[Set]ボタンを押します。これで全部の文字の大きさが変更されました。


特定の文節のみ編集するには[Set for frames]ボタンを押すと、現在表示されている文節フレームだけ変更されます。

声の種類ごとに変更出来る機能もあります。
いかに簡単に音声合成付き字幕が作成できるかをご覧いただけたかと思います。活用次第で無限の可能性が広がりますね。

Makerの機能

Playerの機能