Title / タイトル ビスポーク音声デザインの骨格形成と体系化(2021-2025, 科研費基盤A 分担)
Projects / プロジェクト State-of-the-art text-to-speech synthesis is capable of synthesizing speech that is nearly equivalent to that of humans, and is already in use in smart speakers. On the other hand, technologies that enable flexible processing of the same text according to the situation are in demand mainly in the area of content production. As a new direction in speech synthesis research, this research aims to develop technology that allows a computer to collaborate with a user as if it were a craftsman and assist the user’s speech design. In collaboration with the field of psychology, we will identify psychological parameters for voice control suitable for text-to-speech synthesis and voice quality conversion. The aim is to systematize a series of techniques for fine-tuning the user’s rough design and synthesizing natural sound as “Bespoke Speech Design”.
最先端のテキスト音声合成は人間とほぼ等価な音声を合成可能であり,すでにスマートスピーカなどで利用されている.一方,同じテキストでも状況により表現を柔軟に加工できる技術は,主にコンテンツ制作の領域において需要がある.本研究は,音声合成研究の新たな方向性として,計算機があたかも職人のようにユーザと共同し,ユーザの音声デザインを助ける技術開発を目指す.心理学分野と連携し,テキスト音声合成や声質変換に適した音声制御のための心理パラメータを明らかにする.ユーザが大まかにデザインした結果を計算機が微調整し,自然な音声を合成する一連の技術を「ビスポーク音声デザイン」として体系化することが狙いである.
Member / メンバ Masanori Morise / 森勢 将雅(明治大学,代表) Akihiro Tanaka / 田中 章浩(東京女子大学) Daisuke Saito / 齋藤 大輔(東京大学) Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学) Acknowledgement / 謝辞 JSPS KAKENHI 21H04900 (English) JSPS 科研費 21H04900 (日本語) Website / ウェブサイト https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-21H04900/ Reference / 発表文献 (高明 佐伯 & 慎之介 高道, 2024) (Suda et al., 2024) (慎之介 高道, 2024) (緋慧 大中 et al., 2024) (Li et al., 2024) (亘 中田 et al., 2024) (亞椰 渡邊 et al., 2024) (Takamichi et al., 2024) (Watanabe et al., 2023) (Ueda et al., 2023) (亞椰 渡邊 et al., 2023) (Takamichi et al., 2024) (Luo et al., 2024) (健太郎 関 et al., 2023) (Nakamura et al., 2023) (Watanabea et al., 2023) (Ohnaka et al., 2023) (Nakano et al., 2023) (仁志 須田 et al., 2024) (伯寒 武 et al., 2024) (Take et al., 2024) References 2024 最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について
佐伯 高明 , and 高道 慎之介
日本音響学会誌 , 2024
(Invited article / 招待記事)
@article { saeki24asj-kaisetsu_utmos ,
title = {最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について} ,
author = {高明, 佐伯 and 慎之介, 高道} ,
year = {2024} ,
journal = {日本音響学会誌} ,
note = {(Invited article / 招待記事)} ,
memo = {本研究は科研費 21H04900,22H03639,23H03418,23K18474,JST創発的研究支援事業 JP23KJ0828,ムーンショット JPMJPS2011 の助成を受けた.本解説記事の執筆に際し,東京大学大学院の関健太郎氏の助言を受けた.}
}
Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
In Proceedings of Interspeech , 2024
@inproceedings { suda24interspeech_sukikirai ,
abbr_publisher = {Proceedings of Interspeech} ,
booktitle = {Proceedings of Interspeech} ,
title = {Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data} ,
author = {Suda, Hitoshi and Watanabe, Aya and Takamichi, Shinnosuke} ,
year = {2024} ,
memo = {This work was supported by JSPS KAKENHI Grant Number 23K20017, 21H04900, 22H03639, and 23H03418, and JST FOREST JPMJFR226V. This paper is based on results obtained from a project, JPNP20006, commissioned by the New Energy and Industrial Technology Development Organization (NEDO).}
}
インターネット時代の音声コーパスの作成
高道 慎之介
日本音響学会誌 , 2024
(Invited article / 招待記事)
@article { takamichi24asj_invited-article-dark-data ,
title = {インターネット時代の音声コーパスの作成} ,
author = {慎之介, 高道} ,
year = {2024} ,
journal = {日本音響学会誌} ,
note = {(Invited article / 招待記事)} ,
memo = {本研究は科研費 21H04900,22H03639,23H03418,23K18474,JST創発的研究支援事業 JP23KJ0828,ムーンショット JPMJPS2011 の助成を受けた.また,本稿の執筆にあたり東京大学 大学院情報理工学系研究科 修士課程 関 健太郎氏からの助言を受けた.}
}
F0に基づいて伸縮された画像文字からの音声合成
大中 緋慧 , 宮崎 亮一 , and 高道 慎之介
In 日本音響学会春季研究発表会 , 2024
@inproceedings { ohnaka24asjs_vtts-width ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {{F0}に基づいて伸縮された画像文字からの音声合成} ,
author = {緋慧, 大中 and 亮一, 宮崎 and 慎之介, 高道} ,
year = {2024} ,
memo = {本研究は,科研費 22H03639,21H04900 による補助を受けた}
}
YODAS:YouTube 動画から構築される多言語大規模音声データセット
Xinjian Li , 高道 慎之介 , 佐伯 高明 , William Chen , 塩田さやか , and 渡部 晋治
In 日本音響学会春季研究発表会 , 2024
@inproceedings { li24asjs_yodas ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {{YODAS:YouTube} 動画から構築される多言語大規模音声データセット} ,
author = {Li, Xinjian and 慎之介, 高道 and 高明, 佐伯 and Chen, William and 塩田さやか and 晋治, 渡部} ,
year = {2024} ,
memo = {本研究は,アメリカ国立科学財団資金番号 #2138259, #2138286, #2138307, #2137603, #2138296 により支援さ れた,PSC Bridges2 と NCSA Delta via ACCESS allocation CIS210014 を使用した.また本研究は科研費 21H04900, 22H03639,23H03418,JST 創発的研究支援事業 JP23KJ0828, ムーンショット JPMJPS2011 の助成を受けた.}
}
NecoBERT:音声合成のために事前学習された自己教師あり学習モデル
中田 亘 , 佐伯 高明 , 齋藤 佑樹 , 高道 慎之介 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
対照学習モデルによる音声-声質表現文の埋め込み表現獲得
渡邊 亞椰 , 高道 慎之介 , 齋藤 佑樹 , 中田 亘 , 辛 徳泰 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
@inproceedings { watanabe24asjs_coconut-embedding ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {対照学習モデルによる音声-声質表現文の埋め込み表現獲得} ,
author = {亞椰, 渡邊 and 慎之介, 高道 and 佑樹, 齋藤 and 亘, 中田 and 徳泰, 辛 and 洋, 猿渡} ,
year = {2024} ,
memo = {本研究は科研費 21H04900, 22H03639,23H03418,JST 創発的研究支援事業 JP23KJ0828,ムーンショット JPMJPS2011 の助成を受けたものです.}
}
Do learned speech symbols follow Zipf’s law?
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024
@inproceedings { meada24icassp_zipf-law ,
abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
title = {Do learned speech symbols follow {Z}ipf's law?} ,
author = {Takamichi, Shinnosuke and Maeda, Hiroki and Park, Joonyong and Saito, Daisuke and Saruwatari, Hiroshi} ,
year = {2024}
}
Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence
APSIPA Transactions , Mar 2024
@article { luo24apsipa-trans_emotion-synthesis ,
title = {Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence} ,
author = {Luo, Xuan and Takamichi, Shinnosuke and Saito, Yuki and Koriyama, Tomoki and Saruwatari, Hiroshi} ,
year = {2024} ,
journal = {APSIPA Transactions} ,
}
「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析
須田 仁志 , 渡邊 亞椰 , and 高道 慎之介
In 情報処理学会 音声言語処理研究会 , Mar 2024
@inproceedings { suda24slp_voice-attractiveness ,
abbr_publisher = {情報処理学会 音声言語処理研究会} ,
booktitle = {情報処理学会 音声言語処理研究会} ,
title = {「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析} ,
author = {仁志, 須田 and 亞椰, 渡邊 and 慎之介, 高道} ,
year = {2024} ,
memo = {本研究は JSPS 科研費 23K20017,21H04900, 22H03639,23H03418,JST 創発的研究支援事業 JPMJFR226V の助成を受けたものです.この成果は,国立研 究開発法人新エネルギー・産業技術総合開発機構(NEDO) の委託業務(JPNP20006)の結果得られたものです.}
}
複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
武 伯寒 , 渡邉 研斗 , 中塚 貴之 , Tian Cheng , 中野 倫靖 , 後藤 真孝 , 高道 慎之介 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
@inproceedings { take24asjs_audio-effect ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元} ,
author = {伯寒, 武 and 研斗, 渡邉 and 貴之, 中塚 and Cheng, Tian and 倫靖, 中野 and 真孝, 後藤 and 慎之介, 高道 and 洋, 猿渡} ,
year = {2024} ,
memo = {本研究は科研費 21H04900, 22H03639,23H03418, JST 創発的研究支援事業 JP23KJ0828,ムーンショット JPMJPS2011 の助成を受けたものです}
}
Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
In Proceedings of International Conference on Digital Audio Effects (DAFx) , Mar 2024
@inproceedings { take24dafx_effect-chain ,
abbr_publisher = {Proceedings of International Conference on Digital Audio Effects (DAFx)} ,
booktitle = {Proceedings of International Conference on Digital Audio Effects (DAFx)} ,
title = {Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals} ,
author = {Take, Osamu and Watanabe, Kento and Nakatsuka, Takayuki and Cheng, Tian and Nakano, Tomoyasu and Goto, Masataka and Takamichi, Shinnosuke and Saruwatari, Hiroshi} ,
memo = {This work is supported by JSPS KAKENHI 21H04900, 22H03639, and 23H03418, JST FOREST JPMJFR226V, and Moonshot R&D Grant Number JPMJPS2011.} ,
year = {2024}
}
2023 Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023
@inproceedings { watanabe23asru_coconut-corpus ,
abbr_publisher = {IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU)} ,
booktitle = {IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU)} ,
title = {{Coco-Nut}: Corpus of {J}apanese Utterance and Voice Characteristics Description for Prompt-based Control} ,
author = {Watanabe, Aya and Takamichi, Shinnosuke and Saito, Yuki and Nakata, Wataru and Xin, Detai and Saruwatari, Hiroshi} ,
year = {2023}
}
HumanDiffusion: diffusion model using perceptual gradients
In Proceedings of Interspeech , Mar 2023
@inproceedings { ueda23interspeech_humandiffusion ,
abbr_publisher = {Proceedings of Interspeech} ,
booktitle = {Proceedings of Interspeech} ,
title = {HumanDiffusion: diffusion model using perceptual gradients} ,
author = {Ueda, Yota and Takamichi, Shinnosuke and Saito, Yuki and Takamune, Norihiro and Saruwatari, Hiroshi} ,
year = {2023}
}
Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
渡邊 亞椰 , 高道 慎之介 , 齋藤 佑樹 , 辛 徳泰 , and 猿渡 洋
In 日本音響学会秋季研究発表会 , Mar 2023
@inproceedings { watanabe23asja_coconut ,
abbr_publisher = {日本音響学会秋季研究発表会} ,
booktitle = {日本音響学会秋季研究発表会} ,
title = {Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット} ,
author = {亞椰, 渡邊 and 慎之介, 高道 and 佑樹, 齋藤 and 徳泰, 辛 and 洋, 猿渡} ,
year = {2023}
}
学習・評価ループを用いたデータ選択によるダークデータからの音声合成
関 健太郎 , 高道 慎之介 , 佐伯 高明 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2023
@inproceedings { seki23asjs_dark-data ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {学習・評価ループを用いたデータ選択によるダークデータからの音声合成} ,
author = {健太郎, 関 and 慎之介, 高道 and 高明, 佐伯 and 洋, 猿渡} ,
year = {2023}
}
jaCappella corpus: A Japanese a cappella vocal ensemble corpus
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
@inproceedings { nakamura23icassp_jacappella ,
abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
title = {{jaCappella} corpus: A Japanese a cappella vocal ensemble corpus} ,
author = {Nakamura, Tomohiko and Takamichi, Shinnosuke and Tanji, Naoko and Fukayama, Satoru and Saruwatari, Hiroshi} ,
year = {2023}
}
Mid-attribute Speaker Generation using Optimal-Transport-based Interpolation of Gaussian Mixture Models
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
@inproceedings { watanabe23icassp_mid-attribute ,
abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
title = {Mid-attribute Speaker Generation using Optimal-Transport-based Interpolation of Gaussian Mixture Models} ,
author = {Watanabea, Aya and Takamichi, Shinnosuke and Saito, Yuki and Xin, Detai and Saruwatari, Hiroshi} ,
year = {2023}
}
Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
@inproceedings { ohnaka23icassp_visual-onoma-to-wave ,
abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)} ,
title = {Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images} ,
author = {Ohnaka, Hien and Takamichi, Shinnosuke and Imoto, Keisuke and Okamoto, Yuki and Fujii, Kazuki and Saruwatari, Hiroshi} ,
year = {2023}
}
vTTS: visual-text to speech
In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2023
@inproceedings { nakano23slt_visual-text-to-speech ,
abbr_publisher = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)} ,
booktitle = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)} ,
title = {{vTTS}: visual-text to speech} ,
author = {Nakano, Yoshifumi and Saeki, Takaaki and Takamichi, Shinnosuke and Sudoh, Katsuhito and Saruwatari, Hiroshi} ,
year = {2023}
}