Skip to content

0xDing/wikipedia-cn-20230720-filtered

Text GenerationZHcc-by-sa-3.0

The 0xDing/wikipedia-cn-20230720-filtered dataset is a ZH text generation resource from 0xDing at 2023. With 2.3K downloads and 170 likes, it is actively used by the community. It is released under the cc-by-sa-3.0 license and is a 100K<n<1M-scale dataset.

About 0xDing/wikipedia-cn-20230720-filtered

本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 254,547条 质量较高的词条内容。具体而言: 过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条 使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条 过滤了一部分内容较为敏感或存在争议性的词条。 进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词...

Details

Task
Text Generation
Language
ZH
Format
Parquet
Rows / instances
N/A
Size
100K<n<1M
Creator
0xDing
Year
2023
License
cc-by-sa-3.0
Downloads
2283
Likes
170
Download Homepage

Related Text Generation datasets

FAQ