人間に准ずる計算機

計算機が人間に准ずるための音声認識合成技術

Title / タイトル

計算機が人間に准ずるための音声認識合成技術 (2023-2030, 創発的研究支援事業 代表)

Projects / プロジェクト

This research aims to develop a speech recognition and synthesis technology to implement a computer as a human-like agent. To realize such an existence, speech synthesis technology that makes computers talk, cry, and laugh just like humans, and conversely, speech recognition technology that recognizes human speech, are necessary. In this research, we will research and develop speech design, machine learning, and common basic database for this purpose.

本研究は、人間に准ずる存在として計算機を実装するための音声認識合成技術です。そのような存在の実現には、人間と同じように計算機が喋り泣き笑う音声合成技術と、逆に人間のそれらを認識する音声認識技術が必要です。本研究では、そのための音声デザイン、機械学習、共通基盤データベースについて研究開発します。

Member / メンバ

  • Shinnosuke Takamichi / 高道 慎之介(慶應義塾大学,代表)

Acknowledgement / 謝辞

  • JST FOREST JPMJFR226V (English)
  • xxx (日本語)

Website / ウェブサイト

  • https://www.jst.go.jp/souhatsu/research/panel_yagi.html

Reference / 発表文献

References

2024

  1. 最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について
    佐伯 高明 ,  and  高道 慎之介
    日本音響学会誌, 2024
    (Invited article / 招待記事)
  2. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , 2024
  3. Textless Dependency Parsing by Labeled Sequence Prediction
    Shunsuke Kando ,  Yusuke Miyao ,  Jason Naradowsky , and 1 more author
    In Proceedings of Interspeech , 2024
  4. Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis
    Takaaki Saeki ,  Soumi Maiti ,  Xinjian Li , and 3 more authors
    IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024
  5. テキスト生成の自動評価尺度に基づく音声生成の自動評価
    佐伯 高明 ,  マイティ ソウミ ,  高道 慎之介 , and 2 more authors
    In 電子情報通信学会 音声研究会 , 2024
  6. 音環境に適応するテキスト音声合成のための一人称視点コーパス構築
    武 伯寒 ,  高道 慎之介 ,  関 健太郎 , and 2 more authors
    In 情報処理学会 音声言語処理研究会 , 2024
  7. Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
    松永 裕太 ,  高道 慎之介 ,  上乃 聖 , and 1 more author
    In 日本音響学会春季研究発表会 , 2024
  8. 歌唱者間相互作用を再現するDNN重唱歌声合成の検討
    兵藤 弘明 ,  高道 慎之介 ,  中村 友彦 , and 2 more authors
    In 情報処理学会 音楽情報科学研究会 , 2024
  9. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 , and 3 more authors
    In 日本音響学会春季研究発表会 , 2024
  10. 大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成
    辛 徳泰 ,  高道 慎之介 ,  森松 亜依 , and 1 more author
    In 日本音響学会春季研究発表会 , 2024
  11. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 , and 5 more authors
    In 日本音響学会春季研究発表会 , 2024
  12. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka , and 5 more authors
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , 2024

2023

  1. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito , and 3 more authors
    In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , 2023
  2. Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus
    Detai XinShinnosuke Takamichi ,  Ai Morimatsu , and 1 more author
    In Proceedings of Interspeech , 2023
  3. HumanDiffusion: diffusion model using perceptual gradients
    Yota Ueda ,  Shinnosuke TakamichiYuki Saito , and 2 more authors
    In Proceedings of Interspeech , 2023
  4. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 , and 2 more authors
    In 日本音響学会秋季研究発表会 , 2023
  5. 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?
    前田 紘希 ,  高道 慎之介 ,  朴 浚鎔 , and 1 more author
    In 日本音響学会秋季研究発表会 , 2023