【動画】女子高生を歌わせるよ
動画は以下からご覧いただけます
https://youtu.be/ZiDSLC7R6Ko?si=26i-IzoCy_WiPWrn
RVCの音声トレーニングは一般的に10以上のファイル数で計10分から30分は必要とか言われてます
汎用性の高いモデルを作ろうとすれば喜怒哀楽、強弱、高低、囁き声、裏声、歌声と幅広い音声データが必要になりますよね
でも「そんなにデータねーよ」というケースも多々あるはず
そこで数分(この動画の場合は3分台。敢えて分割しない1ファイルのみ)の学習データで歌えるのか?それも静かな口調で平坦なしゃべりのみ
イラスト用のLoRAが一枚や数枚の学習元絵でそれなりには作れるので
音声でも短い学習音声でやれないこともないはず。ってことで学習時の総エポック数高め、変換音声生成時も少々特殊な設定でやってみました
結論:精度は別として「やろうと思えばそれなりにやれないこともない」です
ところで最近はDeepFakeを少々検証していました
こちらの最下あたりにある「AI」カテゴリーや「Shorts」カテゴリーにいくつかアップしています
https://www.youtube.com/@lucky2283
今やってるのはモノラル音声の疑似ステレオ音声化です
自分流のやり方ですが、AIと音声編集作業の合わせ技です
よければこちらも聞いてみてください
https://youtu.be/Xwk6srP9z8g?si=N4Y4U-U5q7AI6E4Z
ところで口パクに使ってSadTalkerですがA1111 v1.8は使えないようですよ
使いたい人は以前のバージョンに戻せる人は戻したら動きます
ちなみに自分はSD1.5環境とSDXL環境とforgeをそれぞれ別に仮想環境に構築してます
呪文
入力なし
コメント
コメントをするにはログインをする必要があります。