介入可能音分析

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化

Title / タイトル

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化(2023-2026, 科研費基盤B 分担)

Projects / プロジェクト

This research aims to build an acoustic scene analysis infrastructure that operates with high performance while taking into account the possibility of human intervention. Specifically, we aim to create a methodology for sound source separation with high separation performance and the possibility of human intervention, deep analysis synthesis, by combining deep acoustic synthesis (a technology combining synthesizers established in signal processing and deep learning) and deep sound source separation (sound source separation using deep learning) technologies. By applying this technology, it is possible to realize an acoustic scene analysis method that can be adapted to various situations that include elements that are difficult to foresee in advance due to human intervention, rather than aiming for practical use by devising learning only. This should make it possible to actively introduce human a priori and expert knowledge.

本研究は,人間が介入可能性を考慮しつつ高性能に動作する音響情景分析基盤の構築を目指す.具体的には,深層音響合成(信号処理で確立されたシンセサイザーと深層学習を組み合わせた技術)と,深層音源分離(深層学習を用いた音源分離)技術を融合し,高い分離性能と人間の介入可能性をもつ音源分離の方法論,深層分析合成を創出することを目指す.この技術を応用することで,学習のみを工夫して実用を目指すのではなく,人が介入することで事前に予見し難い要素を含む様々な現場に適応できる音響情景分析手法が実現しうる.これにより,人間の先験的・専門的知識を能動的に導入することが可能となるはずである.

Member / メンバ

  • Tomohiko Nakamura / 中村 友彦(産総研,代表)
  • Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学)
  • Kohei Yatabe / 矢田部 浩平(東京農工大学)

Acknowledgement / 謝辞

  • JSPS KAKENHI 23K28108 (English)
  • JSPS 科研費 23K28108 (日本語)

Website / ウェブサイト

  • https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-23K28108/

Reference / 発表文献

References

2026

  1. 大規模言語モデルと自己修正に基づく歌唱可能な歌詞への phonemic translation
    阪井 瞭介 ,  深尾 貫太 ,  and  高道 慎之介
    In 情報処理学会 音楽情報科学研究会 , Mar 2026
  2. 人間ーAI斉唱において合成歌声特徴量の変調が斉唱らしさにもたらす効果
    三井 啓史 ,  松下 嶺佑 ,  深尾 貫太 ,  and  高道 慎之介
    In 情報処理学会 音楽情報科学研究会 , Mar 2026
  3. ボイスコミックデータセット MangaVox が拓く音声科学・工学タスク
    高道 慎之介 ,  中村 友彦 ,  須田 仁志 ,  深山 覚 ,  and  緒方 淳
    In 日本音響学会春季研究発表会 , Mar 2026
  4. 空間音とテキストの対照学習による音源情報と空間情報の分離表現学習
    上治 正太郎 ,  高道 慎之介 ,  and  山岡 洸瑛
    In 電子情報通信学会 応用音響研究会 , Mar 2026
  5. 人間-AI斉唱における合成歌声の呼吸パラメータの歌唱者間リアルタイム同期
    深尾 貫太 ,  三井 啓史 ,  小野 晶子 ,  上原 祟寛 ,  and  高道 慎之介
    In 情報処理学会 音楽情報科学研究会 , Mar 2026

2025

  1. 変分オートエンコーダによるドラムからボーカルパーカッションへの楽器音変換と評価
    信川 凜佳 ,  北村 優輝士 ,  中村 友彦 ,  高道 慎之介 ,  and  猿渡 洋
    In 情報処理学会 音楽情報科学研究会 , Mar 2025
  2. 音楽基盤モデルは音高情報を螺旋構造に埋め込むか?
    八木 颯斗 ,  and  高道 慎之介
    In 情報処理学会 音楽情報科学研究会 , Aug 2025
  3. Drum-to-Vocal Percussion Sound Conversion and Its Evaluation Methodology
    Rinka Nobukawa ,  Makito Kitamura ,  Tomohiko NakamuraShinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) , Oct 2025
  4. 漫画画像理解性能が漫画音声合成の品質に与える影響の調査
    越野 颯太 ,  上治 正太郎 ,  高道 慎之介 ,  and  中村 友彦
    In 電子情報通信学会ヒューマンコミュニケーショングループ・コミック工学研究会 , Jul 2025
  5. MangaVox:ボイスコミックの計算機理解に向けたマルチモーダル演技音声データセット
    高道 慎之介 ,  中村 友彦 ,  須田 仁志 ,  深山 覚 ,  and  緒方 淳
    In 電子情報通信学会パターン認識・メディア理解研究専門委員会 , Jul 2025
  6. Real-Time Drum-to-Vocal Percussion Sound Conversion System
    Rinka Nobukawa ,  Tomohiko NakamuraShinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In International Society for Music Information Retrieval Late‑Breaking/Demo Session , Sep 2025

2024

  1. DNN-based ensemble singing voice synthesis with interactions between singers
    Hiroaki Hyodo ,  Shinnosuke Takamichi ,  Tomohiro Nakamura ,  Junya Koguchi ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Sep 2024
  2. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , Sep 2024
  3. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka ,  Tian Cheng ,  Tomoyasu Nakano ,  Masataka Goto ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , Sep 2024
  4. Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals
    Kentaro Seki ,  Shinnosuke Takamichi ,  Norihiro Takamune ,  Yuki Saito ,  Kanami Imamura ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Sep 2024
  5. 音環境に適応するテキスト音声合成のための一人称視点コーパス構築
    武 伯寒 ,  高道 慎之介 ,  関 健太郎 ,  坂東 宜昭 ,  and  猿渡 洋
    In 情報処理学会 音声言語処理研究会 , Sep 2024
  6. インターネット時代の音声コーパスの作成
    高道 慎之介
    日本音響学会誌, Sep 2024
    (Invited article / 招待記事)
  7. YODAS:YouTube 動画から構築される多言語大規模音声データセット
    Xinjian Li ,  高道 慎之介 ,  佐伯 高明 ,  William Chen ,  塩田さやか ,  and  渡部 晋治
    In 日本音響学会春季研究発表会 , Sep 2024
  8. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  中田 亘 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Sep 2024
  9. テキスト生成の自動評価尺度に基づく音声生成の自動評価
    佐伯 高明 ,  マイティ ソウミ ,  高道 慎之介 ,  渡部 晋治 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , Sep 2024
  10. SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources
    IEEE Access, Sep 2024
  11. Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
    松永 裕太 ,  高道 慎之介 ,  上乃 聖 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Sep 2024
  12. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 ,  Tian Cheng ,  中野 倫靖 ,  後藤 真孝 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Sep 2024
  13. 二重唱の歌い出しタイミングに対する同時性知覚の刺激閾調査
    兵藤 弘明 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Sep 2024

2023

  1. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito ,  Wataru Nakata ,  Detai Xin ,  and  Hiroshi Saruwatari
    In IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) , Sep 2023
  2. HumanDiffusion: diffusion model using perceptual gradients
    Yota Ueda ,  Shinnosuke TakamichiYuki Saito ,  Norihiro Takamune ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Sep 2023
  3. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Sep 2023
  4. 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?
    前田 紘希 ,  高道 慎之介 ,  朴 浚鎔 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Sep 2023
  5. How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics
    Joonyong Park ,  Shinnosuke TakamichiTomohiko Nakamura ,  Kentaro Seki ,  Detai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Sep 2023