ビスポーク音声デザイン

ビスポーク音声デザインの骨格形成と体系化

Title / タイトル

ビスポーク音声デザインの骨格形成と体系化(2021-2025, 科研費基盤A 分担)

Projects / プロジェクト

State-of-the-art text-to-speech synthesis is capable of synthesizing speech that is nearly equivalent to that of humans, and is already in use in smart speakers. On the other hand, technologies that enable flexible processing of the same text according to the situation are in demand mainly in the area of content production. As a new direction in speech synthesis research, this research aims to develop technology that allows a computer to collaborate with a user as if it were a craftsman and assist the user’s speech design. In collaboration with the field of psychology, we will identify psychological parameters for voice control suitable for text-to-speech synthesis and voice quality conversion. The aim is to systematize a series of techniques for fine-tuning the user’s rough design and synthesizing natural sound as “Bespoke Speech Design”.

最先端のテキスト音声合成は人間とほぼ等価な音声を合成可能であり,すでにスマートスピーカなどで利用されている.一方,同じテキストでも状況により表現を柔軟に加工できる技術は,主にコンテンツ制作の領域において需要がある.本研究は,音声合成研究の新たな方向性として,計算機があたかも職人のようにユーザと共同し,ユーザの音声デザインを助ける技術開発を目指す.心理学分野と連携し,テキスト音声合成や声質変換に適した音声制御のための心理パラメータを明らかにする.ユーザが大まかにデザインした結果を計算機が微調整し,自然な音声を合成する一連の技術を「ビスポーク音声デザイン」として体系化することが狙いである.

Member / メンバ

  • Masanori Morise / 森勢 将雅(明治大学,代表)
  • Akihiro Tanaka / 田中 章浩(東京女子大学)
  • Daisuke Saito / 齋藤 大輔(東京大学)
  • Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学)

Acknowledgement / 謝辞

  • JSPS KAKENHI 21H04900 (English)
  • JSPS 科研費 21H04900 (日本語)

Website / ウェブサイト

  • https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-21H04900/

Reference / 発表文献

References

2024

  1. 最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について
    佐伯 高明 ,  and  高道 慎之介
    日本音響学会誌, 2024
    (Invited article / 招待記事)
  2. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , 2024
  3. インターネット時代の音声コーパスの作成
    高道 慎之介
    日本音響学会誌, 2024
    (Invited article / 招待記事)
  4. F0に基づいて伸縮された画像文字からの音声合成
    大中 緋慧 ,  宮崎 亮一 ,  and  高道 慎之介
    In 日本音響学会春季研究発表会 , 2024
  5. YODAS:YouTube 動画から構築される多言語大規模音声データセット
    Xinjian Li ,  高道 慎之介 ,  佐伯 高明 ,  William Chen ,  塩田さやか ,  and  渡部 晋治
    In 日本音響学会春季研究発表会 , 2024
  6. NecoBERT:音声合成のために事前学習された自己教師あり学習モデル
    中田 亘 ,  佐伯 高明 ,  齋藤 佑樹 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  7. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  中田 亘 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  8. Do learned speech symbols follow Zipf’s law?
    Shinnosuke Takamichi ,  Hiroki Maeda ,  Joonyong Park ,  Daisuke Saito ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024
  9. Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence
    APSIPA Transactions, Mar 2024
  10. 「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析
    須田 仁志 ,  渡邊 亞椰 ,  and  高道 慎之介
    In 情報処理学会 音声言語処理研究会 , Mar 2024
  11. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 ,  Tian Cheng ,  中野 倫靖 ,  後藤 真孝 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  12. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka ,  Tian Cheng ,  Tomoyasu Nakano ,  Masataka Goto ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , Mar 2024

2023

  1. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito ,  Wataru Nakata ,  Detai Xin ,  and  Hiroshi Saruwatari
    In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023
  2. HumanDiffusion: diffusion model using perceptual gradients
    Yota Ueda ,  Shinnosuke TakamichiYuki Saito ,  Norihiro Takamune ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  3. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  4. 学習・評価ループを用いたデータ選択によるダークデータからの音声合成
    関 健太郎 ,  高道 慎之介 ,  佐伯 高明 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2023
  5. jaCappella corpus: A Japanese a cappella vocal ensemble corpus
    Tomohiko NakamuraShinnosuke Takamichi ,  Naoko Tanji ,  Satoru Fukayama ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  6. Mid-attribute Speaker Generation using Optimal-Transport-based Interpolation of Gaussian Mixture Models
    Aya Watanabea ,  Shinnosuke TakamichiYuki SaitoDetai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  7. Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
    Hien Ohnaka ,  Shinnosuke Takamichi ,  Keisuke Imoto ,  Yuki Okamoto ,  Kazuki Fujii ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  8. vTTS: visual-text to speech
    Yoshifumi Nakano ,  Takaaki SaekiShinnosuke Takamichi ,  Katsuhito Sudoh ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2023