Text Dataset Detail

D979CF18-A8BF-4B11-AEB6-75002C0CFBEB Text Corpus

EnglishTokens: 50M tokensOpen Source: 100k entries

Dataset Information

License / Open Source Notice	Open Source Training Datasets Terms of Use apply to this dataset.
Content Type	News, Blogs, Conversations
Tokens	50M tokens
Data Content	Diverse text spanning multiple domains and topics.
File Format	TXT, JSON
Field of Application	NLP
Data Sensitive Items	nil
Copyright Owner	Magic Data

MDT-SAMPLE Dummy Text Corpus

Sample

Open-Source View : 1234 English

Industry: Financial Services

Application: Document Classification

Type: Training Set

Region: USA

MDT-TX-002 Mandarin Chinese Text Corpus

Open-Source View : 1234 English

Industry: Financial Services

Application: Document Classification

Type: Training Set

Region: USA

MDT-TX-003 German Text Corpus

Open-Source View : 1234 Mandarin Chinese

Industry: Financial Services

Application: Document Classification

Type: Training Set

Region: USA