大規模音声・音響データセットを一般公開(NII)

国立情報学研究所(NII)大規模言語モデル研究開発センター(LLMC)より,WebクロールとWebアーカイブに基づく大規模音声・音響データセット「CC Audio」および「Archive.org Audio Dataset」が一般公開されました.2つを合わせると,日本語だけで 48,000 時間を超える音声リソースにアクセス可能です.

本データセットは,LLM-jp の対話WGにおいて,東中竜一郎教授を主担当に,早稲田大学の小川哲司教授と高道慎之介准教授が緊密に連携して推進した成果です.高道准教授は,共同研究グループの一員としてデータセット構築を進めるとともに,関連文献の共著者としても参画しています.詳細はこちらをご覧ください.