Skip to content

Tele-AI/TeleChat-PTD

General NLPEnglish

The Tele-AI/TeleChat-PTD dataset is a English General NLP resource from Tele-AI at 2024.

About Tele-AI/TeleChat-PTD

TeleChat预训练数据集(TeleChat-PTD) 🤗 Hugging Face • 🏔 MindSpore️ • 🦉 github️ • 🐾 gitee️ • 💬 WeChat Tech Report 数据介绍 TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重...

Details

Task
General NLP
Language
English
Format
Parquet
Rows / instances
N/A
Creator
Tele-AI
Year
2024
Download

Related General NLP datasets

FAQ