NLTK工具集
数据集
- WordNet : 包含同义词、释义、例句等
- SentiWordNet : Senti=Sentiment
- Wikipedia
- Common Crawl
- PB 级别,7 年爬虫我的妈,使用 Facebook 的 CC-Net 工具进行处理
- Hugging Face Datasets
Wikipedia 数据集使用方法
语料处理方法
纯文本语料抽取
pip install wikiextractor
python -m wikiextractor.WikiExtractor
python -m wikiextractor.WikiExtractor -h
中文简繁体切换
我们使用 OpenCC : 甚至可以转换日本新体字等中文字体
pip install opencc
python convert_t2s.py input_file > output_file
数据清洗
包括:删除空的成对符号,删除除了
<span class="ne-text">python wikidata_cleaning.py input_file > output_file</span>
Hugging Face Datasets 使用方法
数据集获取
<span class="ne-text">pip install datasets</span>
调用dataset
from datasets import list_datasets, load_dataset
import pprint
# dataset loading
datasets_list = list_datasets()
print(len(datasets_list)) # num_datasets
dataset = load_dataset('sst', split='train') # load SST (Stanford Sentiment Treebank)
print(len(dataset)) # num_samples
pprint(dataset[0]) # {'label':xxx, 'sentence':xxx, 'tokens':xxx, 'tree':xxx}
调用 metrics
from datasets import list_metrics, load_metric
# metrics
metrics_list = list_metrics()
print(len(metrics_list)) # num_metrics
accuracy_metric = load_metric('accuracy')
results = accuracy_metric.compute(references= [0, 1, 0], predictions= [1, 1, 0])
print(results) # {'accuracy': 0.6666666}