NLTK工具集

数据集

  • WordNet : 包含同义词、释义、例句等
  • SentiWordNet : Senti=Sentiment
  • Wikipedia
  • Common Crawl
  • PB 级别,7 年爬虫我的妈,使用 Facebook 的 CC-Net 工具进行处理
  • Hugging Face Datasets

Wikipedia 数据集使用方法

语料处理方法

纯文本语料抽取

pip install wikiextractor
python -m wikiextractor.WikiExtractor
python -m wikiextractor.WikiExtractor -h

中文简繁体切换

我们使用 OpenCC : 甚至可以转换日本新体字等中文字体

pip install opencc
python convert_t2s.py input_file > output_file

数据清洗

包括:删除空的成对符号,删除除了 外残留 html 标签,删除不可见控制字符等

<span class="ne-text">python wikidata_cleaning.py input_file > output_file</span>

Hugging Face Datasets 使用方法

数据集获取

<span class="ne-text">pip install datasets</span>

调用dataset

from datasets import list_datasets, load_dataset
import pprint

# dataset loading
datasets_list = list_datasets()
print(len(datasets_list))  # num_datasets
dataset = load_dataset('sst', split='train')  # load SST (Stanford Sentiment Treebank)
print(len(dataset))  # num_samples
pprint(dataset[0])  # {'label':xxx, 'sentence':xxx, 'tokens':xxx, 'tree':xxx}

调用 metrics

from datasets import list_metrics, load_metric

# metrics
metrics_list = list_metrics()
print(len(metrics_list))  # num_metrics
accuracy_metric = load_metric('accuracy')
results = accuracy_metric.compute(references= [0, 1, 0], predictions= [1, 1, 0])
print(results)  # {'accuracy': 0.6666666}
最后修改:2022 年 06 月 21 日
如果觉得我的文章对你有用,请随意赞赏