音ダークデータ

音声音響ダークデータ採掘技術の研究

Title / タイトル

音声音響ダークデータ採掘技術の研究(2022-2025, 科研費基盤B 代表)

Projects / プロジェクト

This research project deals with a methodology for constructing a very large and widely usable audio corpus from dark audio data. In order to realize this methodology, we will (1) develop web engineering techniques to automatically obtain dark audio data, (2) develop machine learning techniques to quantify the availability of dark data, (3) develop efficient labeling methods for large-scale data, and (4) evaluate various types of audio recognition synthesis.

本研究課題は,音声音響ダークデータから,超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う.その実現にあたり,(1) 音声音響ダークデータを自動取得するWeb工学技術の開発,(2)ダークデータからその利用可能性を定量化する機械学習技術の開発,(3)大規模データに対する効率的なラベリング法,(4)種々の音声音響認識合成における評価を実施する.

Member / メンバ

  • Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学,代表)
  • Keisuke Imoto / 井本 桂右(同志社大学)

Acknowledgement / 謝辞

  • JSPS KAKENHI 23K24895 (English)
  • JSPS 科研費 23K24895 (日本語)

Website / ウェブサイト

  • https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-23K24895/

Reference / 発表文献

References

2024

  1. 最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について
    佐伯 高明 ,  and  高道 慎之介
    日本音響学会誌, Mar 2024
    (Invited article / 招待記事)
  2. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , Mar 2024
  3. Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals
    Kentaro Seki ,  Shinnosuke Takamichi ,  Norihiro Takamune ,  Yuki Saito ,  Kanami Imamura ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2024
  4. 音環境に適応するテキスト音声合成のための一人称視点コーパス構築
    武 伯寒 ,  高道 慎之介 ,  関 健太郎 ,  坂東 宜昭 ,  and  猿渡 洋
    In 情報処理学会 音声言語処理研究会 , Mar 2024
  5. インターネット時代の音声コーパスの作成
    高道 慎之介
    日本音響学会誌, Mar 2024
    (Invited article / 招待記事)
  6. F0に基づいて伸縮された画像文字からの音声合成
    大中 緋慧 ,  宮崎 亮一 ,  and  高道 慎之介
    In 日本音響学会春季研究発表会 , Mar 2024
  7. YODAS:YouTube 動画から構築される多言語大規模音声データセット
    Xinjian Li ,  高道 慎之介 ,  佐伯 高明 ,  William Chen ,  塩田さやか ,  and  渡部 晋治
    In 日本音響学会春季研究発表会 , Mar 2024
  8. 日本語音声合成における対話行為情報の利用による韻律改善
    佐藤 匡紀 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  9. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  中田 亘 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  10. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
    Kentaro Seki ,  Shinnosuke TakamichiTakaaki Saeki ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024
  11. 環境音に対する日本語自由記述文コーパスとベンチマーク分析
    岡本 悠希 ,  高道 慎之介 ,  森松 亜依 ,  渡邊 亞椰 ,  井本 桂右 ,  and  山下 洋一
    In 言語処理学会 全国大会 , Mar 2024
  12. Environmental sound synthesis from vocal imitations and sound event labels
    Yuki Okamoto ,  Keisuke Imoto ,  Shinnosuke Takamichi ,  Ryotaro Nagase ,  Takahiro Fukumori ,  and  Yoichi Yamashita
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2024
  13. SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources
    IEEE Access, Mar 2024
  14. Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis
    Takaaki Saeki ,  Soumi Maiti ,  Xinjian Li ,  Shinji Watanabe ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    IEEE/ACM Transactions on Audio, Speech, and Language Processing, Mar 2024
  15. 「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析
    須田 仁志 ,  渡邊 亞椰 ,  and  高道 慎之介
    In 情報処理学会 音声言語処理研究会 , Mar 2024
  16. J-SpAW:話者照合となりすまし検出のための日本語音声コーパス
    菅野 滉大 ,  高道 慎之介 ,  and  塩田 さやか
    In 情報処理学会 音声言語処理研究会 , Mar 2024
  17. テキスト生成の自動評価尺度に基づく音声生成の自動評価
    佐伯 高明 ,  マイティ ソウミ ,  高道 慎之介 ,  渡部 晋治 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , Mar 2024
  18. Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
    松永 裕太 ,  高道 慎之介 ,  上乃 聖 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  19. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 ,  Tian Cheng ,  中野 倫靖 ,  後藤 真孝 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  20. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka ,  Tian Cheng ,  Tomoyasu Nakano ,  Masataka Goto ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , Mar 2024

2023

  1. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito ,  Wataru Nakata ,  Detai Xin ,  and  Hiroshi Saruwatari
    In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023
  2. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  3. 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?
    前田 紘希 ,  高道 慎之介 ,  朴 浚鎔 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  4. 学習・評価ループを用いたデータ選択によるダークデータからの音声合成
    関 健太郎 ,  高道 慎之介 ,  佐伯 高明 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2023
  5. Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
    Hien Ohnaka ,  Shinnosuke Takamichi ,  Keisuke Imoto ,  Yuki Okamoto ,  Kazuki Fujii ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  6. How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics
    Joonyong Park ,  Shinnosuke TakamichiTomohiko Nakamura ,  Kentaro Seki ,  Detai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  7. Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection
    Kentaro Seki ,  Shinnosuke TakamichiTakaaki Saeki ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023