介入可能音分析

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化

Title / タイトル

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化(2023-2026, 科研費基盤B 分担)

Projects / プロジェクト

This research aims to build an acoustic scene analysis infrastructure that operates with high performance while taking into account the possibility of human intervention. Specifically, we aim to create a methodology for sound source separation with high separation performance and the possibility of human intervention, deep analysis synthesis, by combining deep acoustic synthesis (a technology combining synthesizers established in signal processing and deep learning) and deep sound source separation (sound source separation using deep learning) technologies. By applying this technology, it is possible to realize an acoustic scene analysis method that can be adapted to various situations that include elements that are difficult to foresee in advance due to human intervention, rather than aiming for practical use by devising learning only. This should make it possible to actively introduce human a priori and expert knowledge.

本研究は,人間が介入可能性を考慮しつつ高性能に動作する音響情景分析基盤の構築を目指す.具体的には,深層音響合成(信号処理で確立されたシンセサイザーと深層学習を組み合わせた技術)と,深層音源分離(深層学習を用いた音源分離)技術を融合し,高い分離性能と人間の介入可能性をもつ音源分離の方法論,深層分析合成を創出することを目指す.この技術を応用することで,学習のみを工夫して実用を目指すのではなく,人が介入することで事前に予見し難い要素を含む様々な現場に適応できる音響情景分析手法が実現しうる.これにより,人間の先験的・専門的知識を能動的に導入することが可能となるはずである.

Member / メンバ

  • Tomohiko Nakamura / 中村 友彦(産総研,代表)
  • Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学)
  • Kohei Yatabe / 矢田部 浩平(東京農工大学)

Acknowledgement / 謝辞

  • JSPS KAKENHI 23K28108 (English)
  • JSPS 科研費 23K28108 (日本語)

Website / ウェブサイト

  • https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-23K28108/

Reference / 発表文献

References

2024

  1. DNN-based ensemble singing voice synthesis with interactions between singers
    Hiroaki Hyodo ,  Shinnosuke Takamichi ,  Tomohiro Nakamura ,  Junya Koguchi ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2024
  2. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , Mar 2024
  3. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka ,  Tian Cheng ,  Tomoyasu Nakano ,  Masataka Goto ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , Mar 2024
  4. Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals
    Kentaro Seki ,  Shinnosuke Takamichi ,  Norihiro Takamune ,  Yuki Saito ,  Kanami Imamura ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2024
  5. 音環境に適応するテキスト音声合成のための一人称視点コーパス構築
    武 伯寒 ,  高道 慎之介 ,  関 健太郎 ,  坂東 宜昭 ,  and  猿渡 洋
    In 情報処理学会 音声言語処理研究会 , Mar 2024
  6. インターネット時代の音声コーパスの作成
    高道 慎之介
    日本音響学会誌, Mar 2024
    (Invited article / 招待記事)
  7. YODAS:YouTube 動画から構築される多言語大規模音声データセット
    Xinjian Li ,  高道 慎之介 ,  佐伯 高明 ,  William Chen ,  塩田さやか ,  and  渡部 晋治
    In 日本音響学会春季研究発表会 , Mar 2024
  8. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  中田 亘 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  9. テキスト生成の自動評価尺度に基づく音声生成の自動評価
    佐伯 高明 ,  マイティ ソウミ ,  高道 慎之介 ,  渡部 晋治 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , Mar 2024
  10. SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources
    IEEE Access, Mar 2024
  11. Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
    松永 裕太 ,  高道 慎之介 ,  上乃 聖 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  12. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 ,  Tian Cheng ,  中野 倫靖 ,  後藤 真孝 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024
  13. 二重唱の歌い出しタイミングに対する同時性知覚の刺激閾調査
    兵藤 弘明 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2024

2023

  1. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito ,  Wataru Nakata ,  Detai Xin ,  and  Hiroshi Saruwatari
    In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023
  2. HumanDiffusion: diffusion model using perceptual gradients
    Yota Ueda ,  Shinnosuke TakamichiYuki Saito ,  Norihiro Takamune ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  3. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  4. 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?
    前田 紘希 ,  高道 慎之介 ,  朴 浚鎔 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  5. How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics
    Joonyong Park ,  Shinnosuke TakamichiTomohiko Nakamura ,  Kentaro Seki ,  Detai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023