Skip to content

panlr/teochew_wild

Text To SpeechAutomatic Speech RecognitionZH

Panlr/teochew_wild is a text to speech-focused dataset in ZH distributed in Parquet format.

About panlr/teochew_wild

Teochew-Wild:首个正字标注的野外潮州话数据集 本数据集(Teochew-Wild)是从网络上发音清晰、噪声较少的音视频内容中获取的,原始音视频的数据来源为:民生新闻、潮汕讲古、地方电视节目、故事书、抖音自媒体口播等,我借鉴了Emilla提出的数据集自动处理流水线,对原始数据进行归一化、降噪和剪切(部分自动剪切效果差的使用手工修正); Teochew-Wild总共包括20个发音标准、念错率低的潮汕母语说话人、共12500条音频片段,包含潮州市区、汕头市区、澄海、榕江音、潮...

Details

Task
Text To Speech, Automatic Speech Recognition
Language
ZH
Format
Parquet
Rows / instances
N/A
Creator
panlr
Year
2025
Download

Related Text To Speech, Automatic Speech Recognition datasets

FAQ