Publications

Publications / 対外発表論文

2024

  1. Real-Time Noise Estimation for Lombard-Effect Speech Synthesis in Human–Avatar Dialogue Systems
    Yuto Ishikawa ,  Osamu Take ,  Tomohiko Nakamura ,  Norihiro Takamune ,  Yuki SaitoShinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) , 2024
  2. NecoBERT: Self-Supervised Learning Model Trained by Masked Language Modeling on Rich Acoustic Features Derived from Neural Audio Codec
    Wataru Nakata ,  Takaaki SaekiYuki SaitoShinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) , 2024
  3. DNN-based ensemble singing voice synthesis with interactions between singers
    Hiroaki Hyodo ,  Shinnosuke Takamichi ,  Tomohiro Nakamura ,  Junya Koguchi ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , 2024
  4. 基盤モデル時代に言語で音声を処理したい
    高道 慎之介
    In 情報処理学会 自然言語処理研究会 , 2024
    (Invited talk / 招待講演)
  5. 発話内容書き起こしを越えて音声と言語を結びつけたい
    高道 慎之介
    In 言語処理学会 若手支援事業 , 2024
    (Invited talk / 招待講演)
  6. J-CHAT: 音声言語モデルのための大規模日本語対話音声コーパス
    中田 亘 ,  関 健太郎 ,  谷中 瞳 ,  齋藤 佑樹 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , 2024
  7. 二重唱の歌い出しタイミングに対する同時性知覚の刺激閾調査
    兵藤 弘明 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , 2024
  8. 人間とアバターとの対話システムにおける拡散性雑音下リアルタイム推定雑音を用いたLombard効果模擬音声合成のための検討
    石川 悠人 ,  武 伯寒 ,  中村 友彦 ,  高宗 典玄 ,  齋藤 佑樹 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , 2024
  9. 最先端の予測性能を持つ合成音声品質の自動評価システム UTMOS について
    佐伯 高明 ,  and  高道 慎之介
    日本音響学会誌, 2024
    (Invited article / 招待記事)
  10. Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data
    Hitoshi Suda ,  Aya Watanabe ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , 2024
  11. SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark
    Yuki Saito ,  Takuto Igarashi ,  Kentaro Seki ,  Shinnosuke Takamichi ,  Ryuichi Yamamoto ,  Kentaro Tachibana ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , 2024
  12. Textless Dependency Parsing by Labeled Sequence Prediction
    Shunsuke Kando ,  Yusuke Miyao ,  Jason Naradowsky ,  and  Shinnosuke Takamichi
    In Proceedings of Interspeech , 2024
  13. Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment
    Takuto Igarashi ,  Yuki Saito ,  Kentaro Seki ,  Shinnosuke Takamichi ,  Ryuichi Yamamoto ,  and  Kentaro Tachibanaand Hiroshi Saruwatari
    In Proceedings of Interspeech , 2024
  14. Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals
    Kentaro Seki ,  Shinnosuke Takamichi ,  Norihiro Takamune ,  Yuki Saito ,  Kanami Imamura ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , 2024
  15. speechevaluation
    SpeechBERTScore: Reference-Aware Automatic Evaluation of Speech Generation Leveraging NLP Evaluation Metrics
    Takaaki Saeki ,  Soumi Maiti ,  Shinnosuke Takamichi ,  Shinji Watanabe ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , 2024
  16. SaSLaW: Dialogue Speech Corpus with Audio-visual Egocentric Information Toward Environment-adaptive Dialogue Speech Synthesis
    Osamu Take ,  Shinnosuke Takamichi ,  Kentaro Seki ,  Yoshiaki Bando ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , 2024
  17. 環境音の模倣音声を利用した環境音合成とデータセット構築
    岡本 悠希 ,  井本 桂右 ,  高道 慎之介 ,  永瀬 亮太郎 ,  福森 隆寛 ,  and  山下 洋一
    In 電子情報通信学会 応用音響研究会 , 2024
  18. 音声の生成AIが拓く未来
    高道 慎之介
    電気三学会関西支部専門講習会, 2024
    (Invited talk / 招待講演)
  19. Audio Effect Chain Estimation and Dry Signal Recovery from Multi-Effect-Processed Musical Signals
    Osamu Take ,  Kento Watanabe ,  Takayuki Nakatsuka ,  Tian Cheng ,  Tomoyasu Nakano ,  Masataka Goto ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of International Conference on Digital Audio Effects (DAFx) , 2024
  20. JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions
    Detai Xin ,  Junfeng Jiang ,  Shinnosuke TakamichiYuki Saito ,  Akiko Aizawa ,  and  Hiroshi Saruwatari
    IEEE Access, 2024
  21. JNV Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions
    Speech Communication, 2024
  22. Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis
    Takaaki Saeki ,  Soumi Maiti ,  Xinjian Li ,  Shinji Watanabe ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024
  23. SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources
    IEEE Access, 2024
  24. Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence
    APSIPA Transactions, 2024
  25. インターネット時代の音声コーパスの作成
    高道 慎之介
    日本音響学会誌, 2024
    (Invited article / 招待記事)
  26. 環境音に対する日本語自由記述文コーパスとベンチマーク分析
    岡本 悠希 ,  高道 慎之介 ,  森松 亜依 ,  渡邊 亞椰 ,  井本 桂右 ,  and  山下 洋一
    In 言語処理学会 全国大会 , 2024
  27. 歌唱者間相互作用を再現するDNN重唱歌声合成の検討
    兵藤 弘明 ,  高道 慎之介 ,  中村 友彦 ,  小口 純矢 ,  and  猿渡 洋
    In 情報処理学会 音楽情報科学研究会 , 2024
  28. テキスト生成の自動評価尺度に基づく音声生成の自動評価
    佐伯 高明 ,  マイティ ソウミ ,  高道 慎之介 ,  渡部 晋治 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , 2024
  29. SRC4VCデータセット:多話者音声変換モデルのベンチマークを目的とした実デバイス収録音声コーパス
    齋藤 佑樹 ,  五十嵐 琢斗 ,  関 健太郎 ,  高道 慎之介 ,  山本 龍一 ,  橘 健太郎 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , 2024
  30. 音環境に適応するテキスト音声合成のための一人称視点コーパス構築
    武 伯寒 ,  高道 慎之介 ,  関 健太郎 ,  坂東 宜昭 ,  and  猿渡 洋
    In 情報処理学会 音声言語処理研究会 , 2024
  31. 「キミは私の声、好きかな?」大規模主観評価による声質好感度コーパスの構築とその分析
    須田 仁志 ,  渡邊 亞椰 ,  and  高道 慎之介
    In 情報処理学会 音声言語処理研究会 , 2024
  32. J-SpAW:話者照合となりすまし検出のための日本語音声コーパス
    菅野 滉大 ,  高道 慎之介 ,  and  塩田 さやか
    In 情報処理学会 音声言語処理研究会 , 2024
  33. 音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換
    五十嵐 琢斗 ,  齋藤 佑樹 ,  関 健太郎 ,  高道 慎之介 ,  山本 龍一 ,  橘 健太郎 ,  and  猿渡 洋
    In 電子情報通信学会 音声研究会 , 2024
  34. 大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成
    辛 徳泰 ,  高道 慎之介 ,  森松 亜依 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , 2024
  35. 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元
    武 伯寒 ,  渡邉 研斗 ,  中塚 貴之 ,  Tian Cheng ,  中野 倫靖 ,  後藤 真孝 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , 2024
  36. 日本語音声合成における対話行為情報の利用による韻律改善
    佐藤 匡紀 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , 2024
  37. Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
    松永 裕太 ,  高道 慎之介 ,  上乃 聖 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , 2024
  38. 対照学習モデルによる音声-声質表現文の埋め込み表現獲得
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  中田 亘 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , 2024
  39. F0に基づいて伸縮された画像文字からの音声合成
    大中 緋慧 ,  宮崎 亮一 ,  and  高道 慎之介
    In 日本音響学会春季研究発表会 , 2024
  40. YODAS:YouTube 動画から構築される多言語大規模音声データセット
    Xinjian Li ,  高道 慎之介 ,  佐伯 高明 ,  William Chen ,  塩田さやか ,  and  渡部 晋治
    In 日本音響学会春季研究発表会 , 2024
  41. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
    Kentaro Seki ,  Shinnosuke TakamichiTakaaki Saeki ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2024
  42. Do learned speech symbols follow Zipf’s law?
    Shinnosuke Takamichi ,  Hiroki Maeda ,  Joonyong Park ,  Daisuke Saito ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2024
  43. Environmental sound synthesis from vocal imitations and sound event labels
    Yuki Okamoto ,  Keisuke Imoto ,  Shinnosuke Takamichi ,  Ryotaro Nagase ,  Takahiro Fukumori ,  and  Yoichi Yamashita
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2024
  44. NecoBERT:音声合成のために事前学習された自己教師あり学習モデル
    中田 亘 ,  佐伯 高明 ,  齋藤 佑樹 ,  高道 慎之介 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2024

2023

  1. jaCappellaコーパスv2:重唱分離・合成のための日本語アカペラ重唱コーパスの拡張
    中村 友彦 ,  高道 慎之介 ,  丹治 尚子 ,  深山 覚 ,  and  猿渡 洋
    In 情報処理学会 音楽情報科学研究会 , Mar 2023
  2. jaCappella corpus: A Japanese a cappella vocal ensemble corpus
    Tomohiko NakamuraShinnosuke Takamichi ,  Naoko Tanji ,  Satoru Fukayama ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  3. Mid-attribute Speaker Generation using Optimal-Transport-based Interpolation of Gaussian Mixture Models
    Aya Watanabea ,  Shinnosuke TakamichiYuki SaitoDetai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  4. How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics
    Joonyong Park ,  Shinnosuke TakamichiTomohiko Nakamura ,  Kentaro Seki ,  Detai Xin ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  5. Improving robustness of spontaneous speech synthesis with linguistic speech regularization and pseudo-filled-pause insertion
    In Proceedings of Speech Synthesis Workshop (SSW) , Mar 2023
  6. Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining
    Takaaki Saeki ,  Soumi Maiti ,  Xinjian Li ,  Shinji Watanabe ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI) , Mar 2023
  7. Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
    Hien Ohnaka ,  Shinnosuke Takamichi ,  Keisuke Imoto ,  Yuki Okamoto ,  Kazuki Fujii ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  8. Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection
    Kentaro Seki ,  Shinnosuke TakamichiTakaaki Saeki ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Mar 2023
  9. Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control
    Aya Watanabe ,  Shinnosuke TakamichiYuki Saito ,  Wataru Nakata ,  Detai Xin ,  and  Hiroshi Saruwatari
    In IEEE Automatic Speech Recogiton and Understanding Workshop (ASRU) , Mar 2023
  10. YODAS: Youtube-Oriented Dataset for Audio and Speech
    Xinjian Li ,  Shinnosuke TakamichiTakaaki Saeki ,  William Chen ,  Sayaka Shiota ,  and  Shinji Watanabe
    In Proc. ASRU , Dec 2023
  11. Speaking Practice Using Text-to-speech Technology: Japanese EFL Learners’ Perceptions
    Yasushige Ishikawa ,  Shinnosuke TakamichiYuta Matsunaga ,  Yusuke Yoshikawa ,  and  Shigeo Fujiwara
    In WorldCALL , Nov 2023
  12. CALLS: Japanese empathetic dialogue speech corpus of complaint handling and attentive listening in customer center
    Yuki Saito ,  Eiji Iimori ,  Shinnosuke Takamichi ,  Kentaro Tachibana ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Aug 2023
  13. ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル
    齋藤 佑樹 ,  高道 慎之介 ,  飯森 栄治 ,  橘 健太郎 ,  and  猿渡 洋
    In 音学シンポジウム , Jun 2023
  14. ChatGPT-EDSS: empathetic dialogue speech synthesis trained from ChatGPT-derived context word embeddings
    Yuki SaitoShinnosuke Takamichi ,  Eiji Iimori ,  Kentaro Tachibana ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Aug 2023
  15. Foley Sound Synthesis at the DCASE 2023 Challenge
    Keunwoo Choi ,  Jaekwon Im ,  Laurie Heller ,  Brian McFee ,  Keisuke Imoto ,  Yuki Okamoto ,  Mathieu Lagrange ,  and  Shinnosuke Takamichi
    In DCASE Challenge , May 2023
  16. Effects of text-to-speech synthesized speech on learners’ presentation anxiety and self-efficacy: A comparison of two models
    Takatoyo Umemoto ,  Shinnosuke TakamichiYuta Matsunaga ,  Yusuke Yoshikawa ,  Kikuko Yui ,  Kishio Sakamoto ,  Shigeo Fujiwara ,  and  Yasushige Ishikawa
    In Proc. EUROCALL , Aug 2023
  17. Improving Speech Prosody of Audiobook Text-to-Speech Synthesis with Acoustic and Textual Contexts
    Detai Xin ,  Sharath Adavanne ,  Federico Ang ,  Ashish Kulkarni ,  Shinnosuke Takamichi ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Jun 2023
  18. TimToShape: Supporting Practice of Musical Instruments by Visualizing Timbre with 2D Shapes based on Crossmodal Correspondences
    Kota Arai ,  Yutaro Hirao ,  Takuji Narumi ,  Tomohiko NakamuraShinnosuke Takamichi ,  and  Shigeo Yoshida
    In Proc. IUI , Mar 2023
  19. Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus
    Detai XinShinnosuke Takamichi ,  Ai Morimatsu ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  20. HumanDiffusion: diffusion model using perceptual gradients
    Yota Ueda ,  Shinnosuke TakamichiYuki Saito ,  Norihiro Takamune ,  and  Hiroshi Saruwatari
    In Proceedings of Interspeech , Mar 2023
  21. vTTS: visual-text to speech
    Yoshifumi Nakano ,  Takaaki SaekiShinnosuke Takamichi ,  Katsuhito Sudoh ,  and  Hiroshi Saruwatari
    In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2023
  22. Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット
    渡邊 亞椰 ,  高道 慎之介 ,  齋藤 佑樹 ,  辛 徳泰 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  23. 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?
    前田 紘希 ,  高道 慎之介 ,  朴 浚鎔 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Mar 2023
  24. 学習・評価ループを用いたデータ選択によるダークデータからの音声合成
    関 健太郎 ,  高道 慎之介 ,  佐伯 高明 ,  and  猿渡 洋
    In 日本音響学会春季研究発表会 , Mar 2023
  25. Voice-to-foley: 環境音を模倣した音声を入力とする環境音合成
    岡本 悠希 ,  井本 桂右 ,  高道 慎之介 ,  永瀬 亮太郎 ,  福森 隆寛 ,  洋一 ,  and  山下
    In 日本音響学会秋季研究発表会 , Mar 2023
  26. テキスト音声合成におけるデータサブセット選択のための指標検討
    関 健太郎 ,  高道 慎之介 ,  佐伯 高明 ,  and  猿渡 洋
    In 日本音響学会秋季研究発表会 , Sep 2023
  27. ここまで来た&これから来る歌声合成・歌声変換技術
    高道 慎之介
    音楽情報科学研究会 夏のシンポジウム, Aug 2023
    (Invited talk / 招待講演)
  28. 音声の基盤モデルが切り拓く未来
    高道 慎之介
    第24回慶應科学技術展, Dec 2023
    (Invited talk / 招待講演)
  29. 機械学習を用いた波形モデリング 〜人間の音声の場合〜
    高道 慎之介
    日本地球惑星科学連合2023年大会, May 2023
    (Invited talk / 招待講演)