音ダークデータ

音声音響ダークデータ採掘技術の研究

Title / タイトル

音声音響ダークデータ採掘技術の研究(2022-2025, 科研費基盤B 代表)

Projects / プロジェクト

This research project deals with a methodology for constructing a very large and widely usable audio corpus from dark audio data. In order to realize this methodology, we will (1) develop web engineering techniques to automatically obtain dark audio data, (2) develop machine learning techniques to quantify the availability of dark data, (3) develop efficient labeling methods for large-scale data, and (4) evaluate various types of audio recognition synthesis.

本研究課題は，音声音響ダークデータから，超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う．その実現にあたり，(1) 音声音響ダークデータを自動取得するWeb工学技術の開発，(2)ダークデータからその利用可能性を定量化する機械学習技術の開発，(3)大規模データに対する効率的なラベリング法，(4)種々の音声音響認識合成における評価を実施する．

Member / メンバ

Shinnosuke Takamichi / 高道慎之介（慶應義塾大学，代表）
Keisuke Imoto / 井本桂右（同志社大学）

Acknowledgement / 謝辞

JSPS KAKENHI 23K24895 (English)
JSPS 科研費 23K24895 (日本語)

Website / ウェブサイト

https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-23K24895/

Reference / 発表文献

(高明佐伯 & 慎之介高道, 2024)
(Suda et al., 2024)
(Seki et al., 2024)
(伯寒武 et al., 2024)
(慎之介高道, 2024)
(緋慧大中 et al., 2024)
(Li et al., 2024)
(匡紀佐藤 et al., 2024)
(亞椰渡邊 et al., 2024)
(Seki et al., 2024)
(悠希岡本 et al., 2024)
(Okamoto et al., 2024)
(Watanabe et al., 2023)
(亞椰渡邊 et al., 2023)
(紘希前田 et al., 2023)
(Saeki et al., 2024)
(健太郎関 et al., 2023)
(Ohnaka et al., 2023)
(Saeki et al., 2024)
(Park et al., 2023)
(Seki et al., 2023)
(仁志須田 et al., 2024)
(滉大菅野 et al., 2024)
(高明佐伯 et al., 2024)
(裕太松永 et al., 2024)
(伯寒武 et al., 2024)
(Take et al., 2024)
(仁志須田 & 慎之介高道, 2025)
(伯寒武 et al., 2025)

References

2025

好感度自動推定モデルを利用した任意話者音声の好感度を制御可能な声質変換

須田仁志 , and 高道慎之介

In 情報処理学会音声言語処理研究会 , Mar 2025

@inproceedings{suda25speasip_voice-likeability,
  abbr_publisher = {情報処理学会 音声言語処理研究会},
  booktitle = {情報処理学会 音声言語処理研究会},
  title = {好感度自動推定モデルを利用した任意話者音声の好感度を制御可能な声質変換},
  author = {仁志, 須田 and 慎之介, 高道},
  year = {2025},
}

音環境に適応する音声合成能力を搭載した音声対話システムの構築と実証実験に基づく検討

武伯寒 , 高道慎之介 , 関健太郎 , and 猿渡洋

In 情報処理学会音声言語処理研究会 , Mar 2025

@inproceedings{take25speasip_egotts-dialogue,
  abbr_publisher = {情報処理学会 音声言語処理研究会},
  booktitle = {情報処理学会 音声言語処理研究会},
  title = {音環境に適応する音声合成能力を搭載した音声対話システムの構築と実証実験に基づく検討},
  author = {伯寒, 武 and 慎之介, 高道 and 健太郎, 関 and 洋, 猿渡},
  year = {2025},
}

2024

最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について

佐伯高明 , and 高道慎之介

日本音響学会誌, Mar 2024

(Invited article / 招待記事)

@article{saeki24asj-kaisetsu_utmos,
  title = {最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について},
  author = {高明, 佐伯 and 慎之介, 高道},
  year = {2024},
  journal = {日本音響学会誌},
  note = {(Invited article / 招待記事)},
  memo = {本研究は科研費 21H04900，22H03639，23H03418，23K18474，JST創発的研究支援事業 JP23KJ0828，ムーンショット JPMJPS2011 の助成を受けた．本解説記事の執筆に際し，東京大学大学院の関健太郎氏の助言を受けた．}
}

Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data

Hitoshi Suda , Aya Watanabe , and Shinnosuke Takamichi

In Proceedings of Interspeech , Mar 2024

arXiv Bib Website

@inproceedings{suda24interspeech_sukikirai,
  abbr_publisher = {Proceedings of Interspeech},
  booktitle = {Proceedings of Interspeech},
  title = {Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data},
  author = {Suda, Hitoshi and Watanabe, Aya and Takamichi, Shinnosuke},
  year = {2024},
  memo = {This work was supported by JSPS KAKENHI Grant Number 23K20017, 21H04900, 22H03639, and 23H03418, and JST FOREST JPMJFR226V. This paper is based on results obtained from a project, JPNP20006, commissioned by the New Energy and Industrial Technology Development Organization (NEDO).}
}

Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals

Kentaro Seki , Shinnosuke Takamichi , Norihiro Takamune , Yuki Saito , Kanami Imamura , and Hiroshi Saruwatari

In Proceedings of Interspeech , Mar 2024

@inproceedings{seki24interspeech_spatial-voice-conversion,
  abbr_publisher = {Proceedings of Interspeech},
  booktitle = {Proceedings of Interspeech},
  title = {Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals},
  author = {Seki, Kentaro and Takamichi, Shinnosuke and Takamune, Norihiro and Saito, Yuki and Imamura, Kanami and Saruwatari, Hiroshi},
  year = {2024},
  memo = {This work is supported by Research Grant S of the Tateishi Science and Technology Foundation.}
}

音環境に適応するテキスト音声合成のための一人称視点コーパス構築

武伯寒 , 高道慎之介 , 関健太郎 , 坂東宜昭 , and 猿渡洋

In 情報処理学会音声言語処理研究会 , Mar 2024

@inproceedings{take24slp_1st-person-tts,
  abbr_publisher = {情報処理学会 音声言語処理研究会},
  booktitle = {情報処理学会 音声言語処理研究会},
  title = {音環境に適応するテキスト音声合成のための一人称視点コーパス構築},
  author = {伯寒, 武 and 慎之介, 高道 and 健太郎, 関 and 宜昭, 坂東 and 洋, 猿渡},
  year = {2024},
  memo = {本研究の一部は，科研費 22H03639，23K18474， JST 創発的研究支援事業 JP23KJ0828，及び JST ムーンショット型研究開発事業 JPMJMS2011 の助成を受け実施 しました．また, 原稿の作成に際して, 渡邊 亞椰さんには 図の作成でご協力頂きました. この場を借りて感謝申し上げます}
}

インターネット時代の音声コーパスの作成

高道慎之介

日本音響学会誌, Mar 2024

(Invited article / 招待記事)

@article{takamichi24asj_invited-article-dark-data,
  title = {インターネット時代の音声コーパスの作成},
  author = {慎之介, 高道},
  year = {2024},
  journal = {日本音響学会誌},
  note = {(Invited article / 招待記事)},
  memo = {本研究は科研費 21H04900，22H03639，23H03418，23K18474，JST創発的研究支援事業 JP23KJ0828，ムーンショット JPMJPS2011 の助成を受けた．また，本稿の執筆にあたり東京大学 大学院情報理工学系研究科 修士課程 関 健太郎氏からの助言を受けた．}
}

F0に基づいて伸縮された画像文字からの音声合成

大中緋慧 , 宮崎亮一 , and 高道慎之介

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{ohnaka24asjs_vtts-width,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {{F0}に基づいて伸縮された画像文字からの音声合成},
  author = {緋慧, 大中 and 亮一, 宮崎 and 慎之介, 高道},
  year = {2024},
  memo = {本研究は，科研費 22H03639，21H04900 による補助を受けた}
}

YODAS：YouTube 動画から構築される多言語大規模音声データセット

Xinjian Li , 高道慎之介 , 佐伯高明 , William Chen , 塩田さやか , and 渡部晋治

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{li24asjs_yodas,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {{YODAS：YouTube} 動画から構築される多言語大規模音声データセット},
  author = {Li, Xinjian and 慎之介, 高道 and 高明, 佐伯 and Chen, William and 塩田さやか and 晋治, 渡部},
  year = {2024},
  memo = {本研究は，アメリカ国立科学財団資金番号 #2138259, #2138286, #2138307, #2137603, #2138296 により支援さ れた，PSC Bridges2 と NCSA Delta via ACCESS allocation CIS210014 を使用した．また本研究は科研費 21H04900, 22H03639，23H03418，JST 創発的研究支援事業 JP23KJ0828， ムーンショット JPMJPS2011 の助成を受けた．}
}

日本語音声合成における対話行為情報の利用による韻律改善

佐藤匡紀 , 高道慎之介 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{sato24asjs_dialogue-context,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {日本語音声合成における対話行為情報の利用による韻律改善},
  author = {匡紀, 佐藤 and 慎之介, 高道 and 洋, 猿渡},
  year = {2024},
  memo = {本研究の一部は，JSPS 科研費 21H04900 と 21H05054 の助成の委託を受け実施した．}
}

対照学習モデルによる音声-声質表現文の埋め込み表現獲得

渡邊亞椰 , 高道慎之介 , 齋藤佑樹 , 中田亘 , 辛徳泰 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{watanabe24asjs_coconut-embedding,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {対照学習モデルによる音声-声質表現文の埋め込み表現獲得},
  author = {亞椰, 渡邊 and 慎之介, 高道 and 佑樹, 齋藤 and 亘, 中田 and 徳泰, 辛 and 洋, 猿渡},
  year = {2024},
  memo = {本研究は科研費 21H04900, 22H03639，23H03418，JST 創発的研究支援事業 JP23KJ0828，ムーンショット JPMJPS2011 の助成を受けたものです.}
}

Diversity-based core-set selection for text-to-speech with linguistic and acoustic features

Kentaro Seki , Shinnosuke Takamichi , Takaaki Saeki , and Hiroshi Saruwatari

In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024

@inproceedings{seki24icassp_core-set-selection,
  abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  title = {Diversity-based core-set selection for text-to-speech with linguistic and acoustic features},
  author = {Seki, Kentaro and Takamichi, Shinnosuke and Saeki, Takaaki and Saruwatari, Hiroshi},
  year = {2024}
}

環境音に対する日本語自由記述文コーパスとベンチマーク分析

岡本悠希 , 高道慎之介 , 森松亜依 , 渡邊亞椰 , 井本桂右 , and 山下洋一

In 言語処理学会全国大会 , Mar 2024

@inproceedings{okamoto24nlp_multi-lingual-audiocaps,
  abbr_publisher = {言語処理学会 全国大会},
  booktitle = {言語処理学会 全国大会},
  title = {環境音に対する日本語自由記述文コーパスとベンチマーク分析},
  author = {悠希, 岡本 and 慎之介, 高道 and 亜依, 森松 and 亞椰, 渡邊 and 桂右, 井本 and 洋一, 山下},
  year = {2024},
  memo = {本研究は，ムーンショット JPMJPS2011，JST 創発的研 究支援事業 JP23KJ0828，科研費 21H05054，21H04900，22H0363， 23H03418，23K16908 の支援を受け実施した.}
}

Environmental sound synthesis from vocal imitations and sound event labels

Yuki Okamoto , Keisuke Imoto , Shinnosuke Takamichi , Ryotaro Nagase , Takahiro Fukumori , and Yoichi Yamashita

In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024

@inproceedings{okamoto24icassp_enbironmental-synthesis,
  abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  title = {Environmental sound synthesis from vocal imitations and sound event labels},
  author = {Okamoto, Yuki and Imoto, Keisuke and Takamichi, Shinnosuke and Nagase, Ryotaro and Fukumori, Takahiro and Yamashita, Yoichi},
  year = {2024}
}

SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources

Takaaki Saeki , Shinnosuke Takamichi , Tomohiko Nakamura , Naoko Tanji , and Hiroshi Saruwatari

IEEE Access, Mar 2024

arXiv Bib HTML Code Website

@article{saeki24access_selfremaster,
  title = {{SelfRemaster}: Self-Supervised Speech Restoration for Historical Audio Resources},
  author = {Saeki, Takaaki and Takamichi, Shinnosuke and Nakamura, Tomohiko and Tanji, Naoko and Saruwatari, Hiroshi},
  year = {2024},
  journal = {IEEE Access},
}

Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis

Takaaki Saeki , Soumi Maiti , Xinjian Li , Shinji Watanabe , Shinnosuke Takamichi , and Hiroshi Saruwatari

IEEE/ACM Transactions on Audio, Speech, and Language Processing, Mar 2024

@article{saeki24taslp_text-inductive-tts,
  title = {Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis},
  author = {Saeki, Takaaki and Maiti, Soumi and Li, Xinjian and Watanabe, Shinji and Takamichi, Shinnosuke and Saruwatari, Hiroshi},
  year = {2024},
  journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing}
}

「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析

須田仁志 , 渡邊亞椰 , and 高道慎之介

In 情報処理学会音声言語処理研究会 , Mar 2024

@inproceedings{suda24slp_voice-attractiveness,
  abbr_publisher = {情報処理学会 音声言語処理研究会},
  booktitle = {情報処理学会 音声言語処理研究会},
  title = {「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析},
  author = {仁志, 須田 and 亞椰, 渡邊 and 慎之介, 高道},
  year = {2024},
  memo = {本研究は JSPS 科研費 23K20017，21H04900， 22H03639，23H03418，JST 創発的研究支援事業 JPMJFR226V の助成を受けたものです．この成果は，国立研 究開発法人新エネルギー・産業技術総合開発機構（NEDO） の委託業務（JPNP20006）の結果得られたものです．}
}

J-SpAW:話者照合となりすまし検出のための日本語音声コーパス

菅野滉大 , 高道慎之介 , and 塩田さやか

In 情報処理学会音声言語処理研究会 , Mar 2024

@inproceedings{kanno24slp_j-spaw,
  abbr_publisher = {情報処理学会 音声言語処理研究会},
  booktitle = {情報処理学会 音声言語処理研究会},
  title = {{J-SpAW}:話者照合となりすまし検出のための日本語音声コーパス},
  author = {滉大, 菅野 and 慎之介, 高道 and さやか, 塩田},
  year = {2024},
  memo = {本研究は JSPS 科研費 JP24K14993, 22H03639 の助成を受けたものです．}
}

テキスト生成の自動評価尺度に基づく音声生成の自動評価

佐伯高明 , マイティソウミ , 高道慎之介 , 渡部晋治 , and 猿渡洋

In 電子情報通信学会音声研究会 , Mar 2024

@inproceedings{saeki24sp_speechevaluation,
  abbr_publisher = {電子情報通信学会 音声研究会},
  booktitle = {電子情報通信学会 音声研究会},
  title = {テキスト生成の自動評価尺度に基づく音声生成の自動評価},
  author = {高明, 佐伯 and ソウミ, マイティ and 慎之介, 高道 and 晋治, 渡部 and 洋, 猿渡},
  year = {2024},
  memo = {JSPS 科 研 費 23H03418，23K18474，22H03639，21H05054，22KJ0838 ムーンショット研究開発費 JPMJPS2011，および JST FOREST JPMJFR226V によって支援された．}
}

Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習

松永裕太 , 高道慎之介 , 上乃聖 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{matsunaga24asjs_cocktail-speech-chain,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習 },
  author = {裕太, 松永 and 慎之介, 高道 and 聖, 上乃 and 洋, 猿渡},
  year = {2024},
  memo = {本研究は，JST 次世代研究者挑戦的研究プログラム JPMJSP2108，ムーンショット JPMJPS2011，JST 創発的研究支 援事業 JP23KJ0828，科研費 21H05054, 22H03639，23H03418 の支援と，東京大学の齋藤佑樹博士, 佐伯高明氏の協力を受け実施 したものです.}
}

複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元

武伯寒 , 渡邉研斗 , 中塚貴之 , Tian Cheng , 中野倫靖 , 後藤真孝 , 高道慎之介 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

@inproceedings{take24asjs_audio-effect,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元},
  author = {伯寒, 武 and 研斗, 渡邉 and 貴之, 中塚 and Cheng, Tian and 倫靖, 中野 and 真孝, 後藤 and 慎之介, 高道 and 洋, 猿渡},
  year = {2024},
  memo = {本研究は科研費 21H04900, 22H03639，23H03418， JST 創発的研究支援事業 JP23KJ0828，ムーンショット JPMJPS2011 の助成を受けたものです}
}

Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals

Osamu Take , Kento Watanabe , Takayuki Nakatsuka , Tian Cheng , Tomoyasu Nakano , Masataka Goto , Shinnosuke Takamichi , and Hiroshi Saruwatari

In Proceedings of International Conference on Digital Audio Effects (DAFx) , Mar 2024

@inproceedings{take24dafx_effect-chain,
  abbr_publisher = {Proceedings of International Conference on Digital Audio Effects (DAFx)},
  booktitle = {Proceedings of International Conference on Digital Audio Effects (DAFx)},
  title = {Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals},
  author = {Take, Osamu and Watanabe, Kento and Nakatsuka, Takayuki and Cheng, Tian and Nakano, Tomoyasu and Goto, Masataka and Takamichi, Shinnosuke and Saruwatari, Hiroshi},
  memo = {This work is supported by JSPS KAKENHI 21H04900, 22H03639, and 23H03418, JST FOREST JPMJFR226V, and Moonshot R&D Grant Number JPMJPS2011.},
  year = {2024}
}

2023

Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control

Aya Watanabe , Shinnosuke Takamichi , Yuki Saito , Wataru Nakata , Detai Xin , and Hiroshi Saruwatari

In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023

arXiv Bib Website

@inproceedings{watanabe23asru_coconut-corpus,
  abbr_publisher = {IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU)},
  booktitle = {IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU)},
  title = {{Coco-Nut}: Corpus of {J}apanese Utterance and Voice Characteristics Description for Prompt-based Control},
  author = {Watanabe, Aya and Takamichi, Shinnosuke and Saito, Yuki and Nakata, Wataru and Xin, Detai and Saruwatari, Hiroshi},
  year = {2023}
}

Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット

渡邊亞椰 , 高道慎之介 , 齋藤佑樹 , 辛徳泰 , and 猿渡洋

In 日本音響学会秋季研究発表会 , Mar 2023

Bib PDF Slides Website

@inproceedings{watanabe23asja_coconut,
  abbr_publisher = {日本音響学会秋季研究発表会},
  booktitle = {日本音響学会秋季研究発表会},
  title = {Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット},
  author = {亞椰, 渡邊 and 慎之介, 高道 and 佑樹, 齋藤 and 徳泰, 辛 and 洋, 猿渡},
  year = {2023}
}

深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか？

前田紘希 , 高道慎之介 , 朴浚鎔 , and 猿渡洋

In 日本音響学会秋季研究発表会 , Mar 2023

@inproceedings{maeda23asja_zipf,
  abbr_publisher = {日本音響学会秋季研究発表会},
  booktitle = {日本音響学会秋季研究発表会},
  title = {深層学習で獲得される音声シンボルは自然言語シンボルと同様に {Zipf} 則に従うか？},
  author = {紘希, 前田 and 慎之介, 高道 and 浚鎔, 朴 and 洋, 猿渡},
  year = {2023}
}

学習・評価ループを用いたデータ選択によるダークデータからの音声合成

関健太郎 , 高道慎之介 , 佐伯高明 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2023

@inproceedings{seki23asjs_dark-data,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {学習・評価ループを用いたデータ選択によるダークデータからの音声合成},
  author = {健太郎, 関 and 慎之介, 高道 and 高明, 佐伯 and 洋, 猿渡},
  year = {2023}
}

Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images

Hien Ohnaka , Shinnosuke Takamichi , Keisuke Imoto , Yuki Okamoto , Kazuki Fujii , and Hiroshi Saruwatari

In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023

arXiv Bib Website

@inproceedings{ohnaka23icassp_visual-onoma-to-wave,
  abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  title = {Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images},
  author = {Ohnaka, Hien and Takamichi, Shinnosuke and Imoto, Keisuke and Okamoto, Yuki and Fujii, Kazuki and Saruwatari, Hiroshi},
  year = {2023}
}

How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics

Joonyong Park , Shinnosuke Takamichi , Tomohiko Nakamura , Kentaro Seki , Detai Xin , and Hiroshi Saruwatari

In Proceedings of Interspeech , Mar 2023

@inproceedings{park23interspeech_gslm,
  abbr_publisher = {Proceedings of Interspeech},
  booktitle = {Proceedings of Interspeech},
  title = {How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics},
  author = {Park, Joonyong and Takamichi, Shinnosuke and Nakamura, Tomohiko and Seki, Kentaro and Xin, Detai and Saruwatari, Hiroshi},
  year = {2023}
}

Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection

Kentaro Seki , Shinnosuke Takamichi , Takaaki Saeki , and Hiroshi Saruwatari

In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023

@inproceedings{seki23icassp_dark-data,
  abbr_publisher = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  booktitle = {Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  title = {Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection},
  author = {Seki, Kentaro and Takamichi, Shinnosuke and Saeki, Takaaki and Saruwatari, Hiroshi},
  year = {2023}
}