多元自動通訳

多元自動通訳システムと評価法に関する研究とその応用展開 (2022-2026, 科研費基盤S 分担)

Title / タイトル

多元自動通訳システムと評価法に関する研究とその応用展開

Projects / プロジェクト

In this research, we will focus on the following issues: 1) Multiple simultaneous interpretation methods: multiple simultaneous interpretation using paralinguistic speech translation, video, prior and external knowledge, interpretation output optimization, and progressive voice interpretation method advancement; 2) Evaluation methods and real-time evaluation techniques for interpretation quality: interpretation process analysis, interpreter support techniques, common methods for interpreters and automatic interpretation systems, and the establishment of an objective automatic evaluation method for interpretation quality using sensing, including brain activity; and 3) Establishment of a real-time interpretation quality evaluation method using a real-time interpretation quality evaluation system. Establishment of an objective automatic evaluation method for interpreting quality using sensing including brain activity. Task 3: Corpus construction and systems: Establishment of corpus alignment, quality annotation, corpus augmentation, construction of operational systems, construction of an ecosystem for data collection and improvement, and establishment of active learning and life-long learning methods.

本研究では，課題１：多元同時通訳方式：パラ言語音声翻訳およびビデオ・事前・外部知識の利用による多元同時通訳，通訳出力最適化，漸進的音声通訳方式高度化，課題２：通訳品質の評価法とリアルタイム評価技術：通訳プロセス分析，通訳者支援技術，通訳者・自動通訳システム共通の通訳品質の評価法，脳活動を含むセンシングによる通訳品質客観的自動評価法の確立．課題３：コーパス構築とシステム：通訳時間アライメント・品質アノテーション，コーパス増強，実運用システムの構築とデータ収集・改良のエコシステムの構築とアクティブラーニング，ライフロングラーニング法の確立を実施する．

Member / メンバ

中村哲（奈良先端科学技術大学院大学）
河原達也（京都大学）
戸田智基（名古屋大学）
森島繁生（早稲田大学）
猿渡洋（東京大学）
SAKTI Sakriani（北陸先端科学技術大学院大学）
松下佳世（立教大学）
山田優（立教大学）
高道慎之介（東京大学）
渡辺太郎（奈良先端科学技術大学院大学）
須藤克仁（奈良先端科学技術大学院大学）
田中宏季（奈良先端科学技術大学院大学）
品川政太朗（奈良先端科学技術大学院大学）

Acknowledgement / 謝辞

JSPS KAKENHI 21H05054 (English)
JSPS 科研費 21H05054 (日本語)

Website / ウェブサイト

https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-21H05054/

References

2024

音声合成

日本語音声合成における対話行為情報の利用による韻律改善

佐藤匡紀 , 高道慎之介 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

Bib PDF

@inproceedings{sato24asjs_dialogue-context,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {日本語音声合成における対話行為情報の利用による韻律改善},
  author = {匡紀, 佐藤 and 慎之介, 高道 and 洋, 猿渡},
  year = {2024},
  memo = {本研究の一部は，JSPS 科研費 21H04900 と 21H05054 の助成の委託を受け実施した．}
}

コーパス

環境音に対する日本語自由記述文コーパスとベンチマーク分析

岡本悠希 , 高道慎之介 , 森松亜依 , 渡邊亞椰 , 井本桂右 , and 山下洋一

In 言語処理学会全国大会 , Mar 2024

Bib PDF

@inproceedings{okamoto24nlp_multi-lingual-audiocaps,
  abbr_publisher = {言語処理学会 全国大会},
  booktitle = {言語処理学会 全国大会},
  title = {環境音に対する日本語自由記述文コーパスとベンチマーク分析},
  author = {悠希, 岡本 and 慎之介, 高道 and 亜依, 森松 and 亞椰, 渡邊 and 桂右, 井本 and 洋一, 山下},
  year = {2024},
  memo = {本研究は，ムーンショット JPMJPS2011，JST 創発的研 究支援事業 JP23KJ0828，科研費 21H05054，21H04900，22H0363， 23H03418，23K16908 の支援を受け実施した.}
}

コーパス

JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions

Detai Xin , Junfeng Jiang , Shinnosuke Takamichi , Yuki Saito , Akiko Aizawa , and Hiroshi Saruwatari

IEEE Access, Mar 2024

arXiv Bib Website

@article{xin24access_jvnv-corpus,
  title = {{JVNV}: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions},
  author = {Xin, Detai and Jiang, Junfeng and Takamichi, Shinnosuke and Saito, Yuki and Aizawa, Akiko and Saruwatari, Hiroshi},
  year = {2024},
  journal = {IEEE Access},
}

コーパス

JNV Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions

Detai Xin , Shinnosuke Takamichi , and Hiroshi Saruwatari

Speech Communication, Mar 2024

arXiv Bib Website

@article{xin24specom_jnv-corpus,
  title = {{JNV} Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions},
  author = {Xin, Detai and Takamichi, Shinnosuke and Saruwatari, Hiroshi},
  year = {2024},
  journal = {Speech Communication},
}

音声合成

大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成

辛徳泰 , 高道慎之介 , 森松亜依 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

Bib PDF

@inproceedings{xin24asjs_laughter-synthesis,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {大規模な日本語笑い声コーパスを用いたテキストレス笑い声合成},
  author = {徳泰, 辛 and 慎之介, 高道 and 亜依, 森松 and 洋, 猿渡},
  year = {2024},
  memo = {本研究は，JST 次世代研究者挑戦的研究プログラム JPMJSP2108，JSPS 科研費 JP23KJ0828，JST 創発的研究支援事業 JPMJFR22 の支援を受けたものです。}
}

音声合成

Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence

Xuan Luo , Shinnosuke Takamichi , Yuki Saito , Tomoki Koriyama , and Hiroshi Saruwatari

APSIPA Transactions, Mar 2024

Bib PDF

@article{luo24apsipa-trans_emotion-synthesis,
  title = {Emotion-controllable Speech Synthesis using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence},
  author = {Luo, Xuan and Takamichi, Shinnosuke and Saito, Yuki and Koriyama, Tomoki and Saruwatari, Hiroshi},
  year = {2024},
  journal = {APSIPA Transactions},
}

音声合成

Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis

Takaaki Saeki , Soumi Maiti , Xinjian Li , Shinji Watanabe , Shinnosuke Takamichi , and Hiroshi Saruwatari

IEEE/ACM Transactions on Audio, Speech, and Language Processing, Mar 2024

Bib Code

@article{saeki24taslp_text-inductive-tts,
  title = {Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis},
  author = {Saeki, Takaaki and Maiti, Soumi and Li, Xinjian and Watanabe, Shinji and Takamichi, Shinnosuke and Saruwatari, Hiroshi},
  year = {2024},
  journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing}
}

音声評価

テキスト生成の自動評価尺度に基づく音声生成の自動評価

佐伯高明 , マイティソウミ , 高道慎之介 , 渡部晋治 , and 猿渡洋

In 電子情報通信学会音声研究会 , Mar 2024

Bib PDF

@inproceedings{saeki24sp_speechevaluation,
  abbr_publisher = {電子情報通信学会 音声研究会},
  booktitle = {電子情報通信学会 音声研究会},
  title = {テキスト生成の自動評価尺度に基づく音声生成の自動評価},
  author = {高明, 佐伯 and ソウミ, マイティ and 慎之介, 高道 and 晋治, 渡部 and 洋, 猿渡},
  year = {2024},
  memo = {JSPS 科 研 費 23H03418，23K18474，22H03639，21H05054，22KJ0838 ムーンショット研究開発費 JPMJPS2011，および JST FOREST JPMJFR226V によって支援された．}
}

音声認識

Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習

松永裕太 , 高道慎之介 , 上乃聖 , and 猿渡洋

In 日本音響学会春季研究発表会 , Mar 2024

Bib PDF

@inproceedings{matsunaga24asjs_cocktail-speech-chain,
  abbr_publisher = {日本音響学会春季研究発表会},
  booktitle = {日本音響学会春季研究発表会},
  title = {Cocktail Machine Speech Chain: 重複あり音声を用いた音声認識・音声合成モデルの統一的学習 },
  author = {裕太, 松永 and 慎之介, 高道 and 聖, 上乃 and 洋, 猿渡},
  year = {2024},
  memo = {本研究は，JST 次世代研究者挑戦的研究プログラム JPMJSP2108，ムーンショット JPMJPS2011，JST 創発的研究支 援事業 JP23KJ0828，科研費 21H05054, 22H03639，23H03418 の支援と，東京大学の齋藤佑樹博士, 佐伯高明氏の協力を受け実施 したものです.}
}

2023

音声合成

vTTS: visual-text to speech

Yoshifumi Nakano , Takaaki Saeki , Shinnosuke Takamichi , Katsuhito Sudoh , and Hiroshi Saruwatari

In Proceedings of IEEE Spoken Language Technology Workshop (SLT) , Mar 2023

arXiv Bib Code Slides

@inproceedings{nakano23slt_visual-text-to-speech,
  abbr_publisher = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  booktitle = {Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  title = {{vTTS}: visual-text to speech},
  author = {Nakano, Yoshifumi and Saeki, Takaaki and Takamichi, Shinnosuke and Sudoh, Katsuhito and Saruwatari, Hiroshi},
  year = {2023}
}

音声合成

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining

Takaaki Saeki , Soumi Maiti , Xinjian Li , Shinji Watanabe , Shinnosuke Takamichi , and Hiroshi Saruwatari

In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI) , Mar 2023

arXiv Bib Code

@inproceedings{saeki23ijcai_learning-to-speak,
  abbr_publisher = {Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI)},
  booktitle = {Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI)},
  title = {Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining},
  author = {Saeki, Takaaki and Maiti, Soumi and Li, Xinjian and Watanabe, Shinji and Takamichi, Shinnosuke and Saruwatari, Hiroshi},
  year = {2023}
}