説明 TTS Subtitle Voice Maker

TTS Subtitle Voice Maker 説明

概要

「TTS Subtitle Voice Maker」とは、誰でも簡単に合成音声付字幕を作成できる、まったく新しいコンセプトの字幕製作ツールです。
一般的に字幕製作とは、映像や音声が先にあって、後から字幕を編集するものですが、本ツールは逆のシステムです。
字幕となるナレーション原稿が先にあって、後から映像を付けていく作成手順を想定してます。
本ツールは２つのツールから構成されます。

１．TTS Subtitle Voice Maker（以下Maker)
　ナレーション原稿から字幕の文節の分割
　文節を合成音声によって文節ごとのMP3のオーディオファイルへ変換
　

２．TTS Subtitle Voice Maker Player（以下Player)
　１の作業で作成された文節を字幕として表示する
　字幕の装飾や表示タイミングの調整
　

デモサイトTTS Subtitle Voice Maker
この２つのツールはWebブラウザで表示します。動作させるにはWebサーバーソフトウェアおよびPython動作環境が必要です。インストールが簡単な簡易Webサーバーについては後述します。
２のPlayerにつきましては、表現手法によっていくつか異なる複数のPlayerがあります。カスタムプレーヤーも含めることが可能です。
本ツールはCGI(Python),HTML,Javascript,CSSのWeb技術で作成されております。

音声合成

Google Cloud Platform Text-to-Speech
いわゆるText-To-Speech(TTS)のエンジンは、Google Cloud PlatformのWebサービスを利用することが前提です。従いまして、１のMakerでMP3ファイル変換を行うにはインターネットへの接続が必要です。
また、Google Cloud PlatformのWebサービスは基本的には開発者登録をして利用する有償サービスですが、2021年12月現在は無料枠があり、その無料枠を有効に利用することも本ツールの目的です。
開発者登録を行って、Google Cloud PlatformのTTSを利用する設定を行うことでAPIキーが発行されます。そのAPIキーを本ツールに登録する必要があります。
2021年12月現在はGoogle Cloud PlatformのWebサービスは試用期間があるようです。試用期間後は、APIは使えなくなりましたが、再度アクティベートして有効化を行うことで利用できます。
このあたりの無料・有料の表記が分かりにくいのが難点なのですが、料金は無料枠＋従量制となっているようで、無料枠を使うぶんには基本料金はかからないと思います。
本ツールのデモページでは、APIキーを登録しなくても動作体験ができます。

動作OS

サーバー環境：Windows,macOS,Linux
ブラウザ環境：Windows,macOS,Linux,Android
ブラウザ表示はiOS,iPadOS以外で動作します。2021年現在、iOS,iPadOSではHTML5のオーディオファイルの再生終わりがJavascriptで検知できないため、Playerを動作させることができません。

ダウンロード

"TTS Subtitle Voice Maker" 一式ダウンロード
tts113.zip
解凍してご利用ください。フォルダ構成は後述。macOSやLinux系の場合はフォルダやファイルに適切な権限を付ける必要があります。
documentroot/ttstop/cgi-bin/tts.pyの１行目は環境によって編集する必要があります。(後述)
documentroot/ttstop/cgi-bin/userdefine.pyはご利用される方、自身のGoogle Cloud APIキーを設定する必要があります。また、各制限の数値を編集してください。（後述）

本ツールの制限

映画字幕のsrtフォーマットやそれに類する字幕用のフォーマットには対応しておりません。
また、本ツールから動画ファイルへの書き出しは機能としてありませんので、他の動画編集ソフトウェア（OBS Studio等)で動作しているWeb画面を画面キャプチャする必要があります。
キャプチャされた字幕動画と映像を合成するためには他の動画編集ソフトウェア（OBS Studio等)でクロマキー合成等の作業が必要です。

利用シーン

VTuberで自分の声を使いたくない場合は本ツールが大変有用です。
音声合成の漫才や落語とかも良いのではないでしょうか。文字装飾だけでもかなりのものが作れます。
音声付き字幕はループ再生させることができます。ブラウザ画面をそのまま販売促進のPOPとして利用することが可能です。字幕の変更もすぐにできます。
ナレーション読み上げ動画の製作。縦書き表現も可能です。文節ごとに異なる声の種類を使うことができるため、会話劇も簡単に製作できます。
文節ごとにスタイルを設定できますので、文字で構成されたタイトル画面などの静止画作成にも利用できます。
MP3ファイルはダウンロードできますので、音声合成だけ行いたい場合も便利です。
一般的な、後から字幕を追加する場合でも、本Player画面をキャプチャして、表示タイミングだけ調整する編集を行うことで利用することができます。

簡単チュートリアル

使ってみましょう。実際に動作するデモ画面を用意してます。
こちらのTTS Subtitle Voice MakerをクリックしてMaker画面を表示させます。

下のテキストエリアに、下の文章を入力してください。コピーペーストでも結構です。

今日は私は音声合成です。
今日から字幕は簡単です。
楽々です。

と入力してみましょう。

次に、テキストエリア少し上の半角のENTERのチェックボックスをチェックします。ここは文節の区切り記号を指定します。ENTERとは改行の意味です。

次に[Upload and split with dellimiter]ボタンを押します。これで上部に文節に分けられてリストが作成されました。

次に、文節のリストの上部（NOの欄の上）に２つのチェックボックスがありますので、上のチェックボックスを押すとすべての文節にチェックが入ります。

次に、文節のリストの上部の[Checked text to MP3 using NewVoice]ボタンを押します。これで数秒で音声合成のMP3ファイルが作成されます。実際にGoogle Cloud Platformのサーバーを利用してます。

確認してみましょう。
各分節の一番右横の欄に、[Audio Player]ボタンがありますので、それを押すと、オーディオコントローラーが表示されますので、再生すると音声が流れるはずです。

おそらく、１行目のはじめは、"きょうは"と発声していると思いますので、これを"こんにちは"と発声させてみます。
"今日は私は音声合成です。"と２つ表示されているうちの下が音声用ですので、下を"こんにちは私は音声合成です。"と変更してみてください。

その横の[VoiceName]ボタンを押しましょう。この行だけ音声変換されます。先ほどの手順でオーディオコントローラを表示して再生すると、発声が変更されていると思います。

さて、今回は、ここまでで、Makerを終わります。次にPlayerを見てみます。

文節リストの上に"player index"というリンクがありますので、クリックしてください。

いくつかPlayerへのリンクが表示されたと思いますが、今回は一番上のttsshow01.html(normal)をクリックしましょう。

編集パネルが出たと思います。文節情報と音声ファイルをロードするために、中央左の[Load resource]ボタンを押します。
数秒でロードされると思います。

次に、その横の[Play]ボタンを押すと、文節ごとに再生されます。(2021年現在iOS,iPadOSでは連続再生できません）

横のスライダーバーを移動させると、文節のフレームが移動できます。

文字の大きさを変えてみましょう。編集パネルのグレーの部分、上段に"Font Size"がありますので、初期値の30から50にしてみます。

そして、その左欄の[Set]ボタンを押します。これで全部の文字の大きさが変更されました。

特定の文節のみ編集するには[Set for frames]ボタンを押すと、現在表示されている文節フレームだけ変更されます。

声の種類ごとに変更出来る機能もあります。
いかに簡単に音声合成付き字幕が作成できるかをご覧いただけたかと思います。活用次第で無限の可能性が広がりますね。

Makerの機能

文章の文節への分割
- 文章入力エリア
- デリミタ複数指定
- 最大長指定
文節のMP3ファイルへの変換
- 言語選択(英語、日本語)
- 声選択
- 複数文節の全選択、反転選択、個別選択、シフト選択
- 文節挿入、削除
- 表示用テキスト、音声用テキスト編集
- テキスト検索・置換
- 指定声での変換、変換済み声での変換
- 変換済み声表示
- MP3ファイルへのリンク
- オーディオコントローラでの再生
プロジェクト
- プロジェクトID表示
- 新規
- セーブ
- ロード
- 作成プロジェクトのエクスポート(ZIP化)
- 作成日より指定時間でのプロジェクト自動削除
その他
- ヘルプへのリンク
- Player一覧へのリンク
- 月ごとの変換文字数制限
- 月ごとの現在までの変換文字数表示
- 文章の文字数制限表示
- 文節の文字数制限表示
- プロジェクト自動削除までの時間表示

Playerの機能

一覧
- ttsshow01.html(normal) 標準、文節の表示、文章全体の表示
- ttsshow11.html(normal+background image) 上記に加えて文節ごとに背景画像を表示
- ttsshow02.html(move X) 文節の横移動表示
- ttsshow03.html(move Y) 文節の縦移動表示
- ttsshow04.html(auto loop start with closed panel and muted)自動ループ再生（編集パネル閉じている、音声ミュート状態）
- ttsshow05.html(3d fly) 文章全体を手前下から奥上へ3次元的に移動する表示
- ttsshow06.html(vertical texts) 縦書き文章表示
- ttsshow07.html(vertical focus) 縦書き文節表示
Player画面上部
- 設定の各Playerごとの、さらに各任意番号ごとのセーブ、ロード
- 音声のミュート
- 一覧へのリンク
Player全体設定（上部）
- Base:ベース色(Color)、幅(Width)、高さ(Height)、画像（サポートされているPlayerのみ）
- Rectangle:背景有無、色(Color)、グラデーション種類(Gradation)、グラデーション色(Color)、幅(Width)、高さ(Height)、横マージン(Margin X)、縦マージン(Margin Y)
Player全体設定、操作部（下部）
- 再生位置への自動スクロール有/無（文章表示時）(Scroll Auto)
- 再生文節フレームだけの表示/文章全部の表示切り替え(設定後,リソースロードが必要）(Display focus text only)
- 音声用テキストの表示/非表示(Display Voice Text)
- テキストのはみ出し部分表示/非表示(Display Overflow)
- ループ再生の有/無(Loop)
- ポーズボタン(Pause)、ポーズ解除ボタン(Resume)
- スライダー位置の文節フレーム表示(<---)、文節フレーム位置をスライダーへ表示(--->)
- 文節フレームとスライダーの同期有/無(<--->)
- リソースロードボタン(Load resource)
- 再生ボタン(Play)
- 再生速度表示(x1.00)
- 再生文節フレーム数、現在文節フレーム位置表示(1/99)
- 停止ボタン(Stop)
- 1文節フレーム移動（マイナス移動(<),プラス移動(>)）
- 開始文節フレーム位置スライダー,フレーム位置入力
設定レベル
- ALL（全体),Voice(声の種類ごと),Frame（文節フレームごと)
レベルごと設定操作
- レベル表示(Level ALL/Voice/Frame)
- レベルごと設定/クリア(Set/Clear,Set for frames/Clear for frames)
- Voiceレベルでの声選択
- レベルごと設定項目のコピー、ペースト、コピーペーストデータ表示(Copy,Paste)
- Frameレベルでの文節フレーム番号複数指定（カンマ区切り、未指定の場合は現在フレーム）(Frame Numbers)
レベルごと設定項目
- フォーカスなし項目
  - フォントサイズ(Font Size)
  - 文字間(Letter Spacing)
  - 行間(% Line Height)
  - マージン(Margin)
  - 文字色(Text Color)
  - 文字太さ(Weight)
  - フォント名(Font Name)
  - フォント例一覧リンク(Font Name sample)
  - 再生速度(Play Speed)
  - 再生前インターバル(msec Before Interval)
  - 再生後インターバル(msec After Interval)
  - 横位置(X Align)
  - 縦位置(Y Align)
- フォーカスあり項目(Focus:)
  - 背景色有/無
  - 背景色(Color)
  - 文字色(Text Color)
  - 文字ふち色(Stroke Color)
  - 文字ふち太さ(Stroke Width)
  - 下線色(UnderLine Color)
  - 下線太さ(UnderLine Width)
  - ボックス影有/無(Box Shadow)
  - テキスト影有/無(Text Shadow)
  - 影横位置(Shadow X)
  - 影縦位置(Shadow Y)
  - 影ぼかし大きさ(Blur)
  - 影色(Shadow Color)
その他の設定項目(標準以外Player）
- アニメーション(Animation)
  - 時間(Time(msec))
  - 開始横位置(StartX(%))
  - 終了横位置(EndX(%))
  - 開始縦位置(StartY(%))
  - 終了縦位置(EndY(%))
  - テキスト幅を計算に含める(calculate text width)
- 3D
  - 背景色(Background Color)、高さ(Height)
  - 回転角(Rotation)
  - 縦位置(Y)
  - 奥位置(Z)
  - 視野(Perspectivve)
  - 速度(Speed)

Maker操作説明

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。
WaveNet 音声の最初の 100 万文字は、毎月無料です。
標準（WaveNet 以外の）音声では、最初の 400 万文字が毎月無料です。
Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。
標準（非 WaveNet）音声	0〜400 万文字	1 文字あたり $0.000004 米ドル（100 万文字あたり $4.00 米ドル）
WaveNet 音声	0〜100 万文字	1 文字あたり $0.000016 米ドル（100 万文字あたり $16.00 米ドル）

Player操作説明

ttsshow01.html(normal) 標準、文節の表示、文章全体の表示
ttsshow11.html(normal+background image) 上記に加えて文節ごとに背景画像を表示
ttsshow02.html(move X) 文節の横移動表示
ttsshow03.html(move Y) 文節の縦移動表示
ttsshow04.html(auto loop start with closed panel and muted)自動ループ再生（編集パネル閉じている、音声ミュート状態、リソース自動読み込み、1番の設定の自動読み込み）
ttsshow05.html(3d fly) 文章全体を手前下から奥上へ3次元的に移動する表示※全体の動きを止めないで再生するには、文節フレームとスライダーの同期有/無(<--->マーク)のチェックはOFFで再生位置を1にしてから[Play]して下さい。
ttsshow06.html(vertical texts) 縦書き文章表示
ttsshow07.html(vertical focus) 縦書き文節表示

フォルダ構成

tts
   --ttsmonth（月ごとの音声変換文字数ファイル）
   --ttsshowtemplate（PlayerおよびPlayer indexファイルのテンプレート）
   --documentroot（通常のドキュメントルート）
                  --ttstop（Python簡易Webサーバの場合のドキュメントルート）
                           --cgi-bin（PythonのCGIファイル、Google Cloud PlatformのAPIキー設定、各制限の定義）
                           --ttscontents
                                         --32文字数値（プロジェクトID、プロジェクトごとにフォルダが生成されます。)
                                                      --data（設定関連ファイル）
                                                      --resource（文節関連ファイル、MP3ファイル）
                                                      --ttsshow（ttsshowtemplateフォルダからコピーされたファイル)

Google Cloud PlatformのAPIキー設定、各制限の定義

Google Cloud Platform Text-to-Speech

ttskey="Google Cloud Platform APIキーを記載"
removelimithours=24*1
limittextpermonth =300000
limittextareacount=20000
limittextlinecount=300

Pythonのインストール

#!C:\Users\myname\AppData\Local\Programs\Python\Python38\python

Webサーバー

c:
cd tts/documentroot/ttstop

python -m http.server 80 --cgi

python --version

python3 --version

http://localhost/

http://localhost/ttstop/

ライセンス

TIPs

文節の区切りで|と^の違いは？

文節の区切りで開始のカッコの処理が他の記号と違いますがなぜでしょうか？

文節の音声やテキストを修正するには？

プロジェクトIDを知る方法は？

Playボタンを押してから時間を空けて再生したい場合は？

音声が無い文節を表示するには？

文章全体を表示するには？

水平移動するアニメーションにするには？

垂直移動するアニメーションにするには？

矢印のようなマークの意味は？

再生がカクつきます。止まります。

3D表示のttsshow05.htmlのプレーヤーの設定は？

縦書き表示はできますか？

すでにある動画に対して字幕追加はできますか？

画像は表示できますか？

https://cooyou.org