Title / タイトル 多元自動通訳システムと評価法に関する研究とその応用展開
Projects / プロジェクト In this research, we will focus on the following issues: 1) Multiple simultaneous interpretation methods: multiple simultaneous interpretation using paralinguistic speech translation, video, prior and external knowledge, interpretation output optimization, and progressive voice interpretation method advancement; 2) Evaluation methods and real-time evaluation techniques for interpretation quality: interpretation process analysis, interpreter support techniques, common methods for interpreters and automatic interpretation systems, and the establishment of an objective automatic evaluation method for interpretation quality using sensing, including brain activity; and 3) Establishment of a real-time interpretation quality evaluation method using a real-time interpretation quality evaluation system. Establishment of an objective automatic evaluation method for interpreting quality using sensing including brain activity. Task 3: Corpus construction and systems: Establishment of corpus alignment, quality annotation, corpus augmentation, construction of operational systems, construction of an ecosystem for data collection and improvement, and establishment of active learning and life-long learning methods.
本研究では,課題1:多元同時通訳方式:パラ言語音声翻訳およびビデオ・事前・外部知識の利用による多元同時通訳,通訳出力最適化,漸進的音声通訳方式高度化,課題2:通訳品質の評価法とリアルタイム評価技術:通訳プロセス分析,通訳者支援技術,通訳者・自動通訳システム共通の通訳品質の評価法,脳活動を含むセンシングによる通訳品質客観的自動評価法の確立.課題3:コーパス構築とシステム:通訳時間アライメント・品質アノテーション,コーパス増強,実運用システムの構築とデータ収集・改良のエコシステムの構築とアクティブラーニング,ライフロングラーニング法の確立を実施する.
Member / メンバ 中村 哲(奈良先端科学技術大学院大学) 河原 達也(京都大学) 戸田 智基(名古屋大学) 森島 繁生(早稲田大学) 猿渡 洋(東京大学) SAKTI Sakriani(北陸先端科学技術大学院大学) 松下 佳世(立教大学) 山田 優(立教大学) 高道 慎之介(東京大学) 渡辺 太郎(奈良先端科学技術大学院大学) 須藤 克仁(奈良先端科学技術大学院大学) 田中 宏季(奈良先端科学技術大学院大学) 品川 政太朗(奈良先端科学技術大学院大学) Acknowledgement / 謝辞 JSPS KAKENHI 21H05054 (English) JSPS 科研費 21H05054 (日本語) Website / ウェブサイト https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-21H05054/ Reference / 発表文献 (匡紀 佐藤 et al., 2024) (悠希 岡本 et al., 2024) (Xin et al., 2024) (Xin et al., 2024) (徳泰 辛 et al., 2024) (Luo et al., 2024) (Nakano et al., 2023) (Saeki et al., 2024) (Saeki et al., 2023) (高明 佐伯 et al., 2024) (裕太 松永 et al., 2024) References 2024 日本語音声合成における対話行為情報の利用による韻律改善
佐藤 匡紀 , 高道 慎之介 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
@inproceedings { sato24asjs_dialogue-context ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {日本語音声合成における対話行為情報の利用による韻律改善} ,
author = {匡紀, 佐藤 and 慎之介, 高道 and 洋, 猿渡} ,
year = {2024} ,
memo = {本研究の一部は,JSPS 科研費 21H04900 と 21H05054 の助成の委託を受け実施した.}
}
環境音に対する日本語自由記述文コーパスとベンチマーク分析
岡本 悠希 , 高道 慎之介 , 森松 亜依 , 渡邊 亞椰 , 井本 桂右 , and 山下 洋一
In 言語処理学会 全国大会 , Mar 2024
@inproceedings { okamoto24nlp_multi-lingual-audiocaps ,
abbr_publisher = {言語処理学会 全国大会} ,
booktitle = {言語処理学会 全国大会} ,
title = {環境音に対する日本語自由記述文コーパスとベンチマーク分析} ,
author = {悠希, 岡本 and 慎之介, 高道 and 亜依, 森松 and 亞椰, 渡邊 and 桂右, 井本 and 洋一, 山下} ,
year = {2024} ,
memo = {本研究は,ムーンショット JPMJPS2011,JST 創発的研 究支援事業 JP23KJ0828,科研費 21H05054,21H04900,22H0363, 23H03418,23K16908 の支援を受け実施した.}
}
JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions
IEEE Access , Mar 2024
@article { xin24access_jvnv-corpus ,
title = {{JVNV}: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions} ,
author = {Xin, Detai and Jiang, Junfeng and Takamichi, Shinnosuke and Saito, Yuki and Aizawa, Akiko and Saruwatari, Hiroshi} ,
year = {2024} ,
journal = {IEEE Access} ,
}
JNV Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions
Speech Communication , Mar 2024
@article { xin24specom_jnv-corpus ,
title = {{JNV} Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions} ,
author = {Xin, Detai and Takamichi, Shinnosuke and Saruwatari, Hiroshi} ,
year = {2024} ,
journal = {Speech Communication} ,
}
大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成
辛 徳泰 , 高道 慎之介 , 森松 亜依 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
@inproceedings { xin24asjs_laughter-synthesis ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成} ,
author = {徳泰, 辛 and 慎之介, 高道 and 亜依, 森松 and 洋, 猿渡} ,
year = {2024} ,
memo = {本研究は,JST 次世代研究者挑戦的研究プログラム JPMJSP2108,JSPS 科研費 JP23KJ0828,JST 創発的研究支援事業 JPMJFR22 の支援を受けたものです。}
}
Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence
APSIPA Transactions , Mar 2024
@article { luo24apsipa-trans_emotion-synthesis ,
title = {Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence} ,
author = {Luo, Xuan and Takamichi, Shinnosuke and Saito, Yuki and Koriyama, Tomoki and Saruwatari, Hiroshi} ,
year = {2024} ,
journal = {APSIPA Transactions} ,
}
Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis
IEEE/ACM Transactions on Audio, Speech, and Language Processing , Mar 2024
@article { saeki24taslp_text-inductive-tts ,
title = {Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis} ,
author = {Saeki, Takaaki and Maiti, Soumi and Li, Xinjian and Watanabe, Shinji and Takamichi, Shinnosuke and Saruwatari, Hiroshi} ,
year = {2024} ,
journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing}
}
テキスト生成の自動評価尺度に基づく音声生成の自動評価
佐伯 高明 , マイティ ソウミ , 高道 慎之介 , 渡部 晋治 , and 猿渡 洋
In 電子情報通信学会 音声研究会 , Mar 2024
@inproceedings { saeki24sp_speechevaluation ,
abbr_publisher = {電子情報通信学会 音声研究会} ,
booktitle = {電子情報通信学会 音声研究会} ,
title = {テキスト生成の自動評価尺度に基づく音声生成の自動評価} ,
author = {高明, 佐伯 and ソウミ, マイティ and 慎之介, 高道 and 晋治, 渡部 and 洋, 猿渡} ,
year = {2024} ,
memo = {JSPS 科 研 費 23H03418,23K18474,22H03639,21H05054,22KJ0838 ムーンショット研究開発費 JPMJPS2011,および JST FOREST JPMJFR226V によって支援された.}
}
Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習
松永 裕太 , 高道 慎之介 , 上乃 聖 , and 猿渡 洋
In 日本音響学会春季研究発表会 , Mar 2024
@inproceedings { matsunaga24asjs_cocktail-speech-chain ,
abbr_publisher = {日本音響学会春季研究発表会} ,
booktitle = {日本音響学会春季研究発表会} ,
title = {Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習 } ,
author = {裕太, 松永 and 慎之介, 高道 and 聖, 上乃 and 洋, 猿渡} ,
year = {2024} ,
memo = {本研究は,JST 次世代研究者挑戦的研究プログラム JPMJSP2108,ムーンショット JPMJPS2011,JST 創発的研究支 援事業 JP23KJ0828,科研費 21H05054, 22H03639,23H03418 の支援と,東京大学の齋藤佑樹博士, 佐伯高明氏の協力を受け実施 したものです.}
}
2023 vTTS: visual-text to speech
In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2023
@inproceedings { nakano23slt_visual-text-to-speech ,
abbr_publisher = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)} ,
booktitle = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)} ,
title = {{vTTS}: visual-text to speech} ,
author = {Nakano, Yoshifumi and Saeki, Takaaki and Takamichi, Shinnosuke and Sudoh, Katsuhito and Saruwatari, Hiroshi} ,
year = {2023}
}
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining
In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI) , Mar 2023
@inproceedings { saeki23ijcai_learning-to-speak ,
abbr_publisher = {Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI)} ,
booktitle = {Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI)} ,
title = {Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining} ,
author = {Saeki, Takaaki and Maiti, Soumi and Li, Xinjian and Watanabe, Shinji and Takamichi, Shinnosuke and Saruwatari, Hiroshi} ,
year = {2023}
}