ログインする ユーザー登録する
投稿企画「#漫画」開催中!特設ページへ ▶

【動画】女子高生を歌わせるよ

使用したAI Stable Diffusion XL
RVCの音声トレーニングで短い音声データでも歌わせられるのかやってみました
動画は以下からご覧いただけます
https://youtu.be/ZiDSLC7R6Ko?si=26i-IzoCy_WiPWrn

RVCの音声トレーニングは一般的に10以上のファイル数で計10分から30分は必要とか言われてます
汎用性の高いモデルを作ろうとすれば喜怒哀楽、強弱、高低、囁き声、裏声、歌声と幅広い音声データが必要になりますよね
でも「そんなにデータねーよ」というケースも多々あるはず
そこで数分(この動画の場合は3分台。敢えて分割しない1ファイルのみ)の学習データで歌えるのか?それも静かな口調で平坦なしゃべりのみ
イラスト用のLoRAが一枚や数枚の学習元絵でそれなりには作れるので
音声でも短い学習音声でやれないこともないはず。ってことで学習時の総エポック数高め、変換音声生成時も少々特殊な設定でやってみました

結論:精度は別として「やろうと思えばそれなりにやれないこともない」です

ところで最近はDeepFakeを少々検証していました
こちらの最下あたりにある「AI」カテゴリーや「Shorts」カテゴリーにいくつかアップしています
https://www.youtube.com/@lucky2283
今やってるのはモノラル音声の疑似ステレオ音声化です
自分流のやり方ですが、AIと音声編集作業の合わせ技です
よければこちらも聞いてみてください
https://youtu.be/Xwk6srP9z8g?si=N4Y4U-U5q7AI6E4Z

ところで口パクに使ってSadTalkerですがA1111 v1.8は使えないようですよ
使いたい人は以前のバージョンに戻せる人は戻したら動きます
ちなみに自分はSD1.5環境とSDXL環境とforgeをそれぞれ別に仮想環境に構築してます

呪文

入力なし

Finger Fiveさんの他の作品

Finger Fiveさんの他の作品

すべてを見る

おすすめ

Stable Diffusion XLのフォト

すべてを見る

トレンド

すべてを見る

ユーザー主催投稿企画

すべてを見る

新着フォト

すべてを見る

ちちぷいグッズ

ショップを見る