《自然语言处理基于预训练模型的方法》- 第3章基础工具集与常用数据集「学习笔记」

NLTK工具集

数据集

WordNet : 包含同义词、释义、例句等
SentiWordNet : Senti=Sentiment
Wikipedia
Common Crawl
PB 级别，7 年爬虫我的妈，使用 Facebook 的 CC-Net 工具进行处理
Hugging Face Datasets

Wikipedia 数据集使用方法

语料处理方法

纯文本语料抽取

pip install wikiextractor
python -m wikiextractor.WikiExtractor
python -m wikiextractor.WikiExtractor -h

中文简繁体切换

我们使用 OpenCC : 甚至可以转换日本新体字等中文字体

pip install opencc
python convert_t2s.py input_file > output_file

数据清洗

包括：删除空的成对符号，删除除了外残留 html 标签，删除不可见控制字符等

<span class="ne-text">python wikidata_cleaning.py input_file > output_file</span>

Hugging Face Datasets 使用方法

数据集获取

<span class="ne-text">pip install datasets</span>

调用dataset

from datasets import list_datasets, load_dataset
import pprint

# dataset loading
datasets_list = list_datasets()
print(len(datasets_list))  # num_datasets
dataset = load_dataset('sst', split='train')  # load SST (Stanford Sentiment Treebank)
print(len(dataset))  # num_samples
pprint(dataset[0])  # {'label':xxx, 'sentence':xxx, 'tokens':xxx, 'tree':xxx}

调用 metrics

from datasets import list_metrics, load_metric

# metrics
metrics_list = list_metrics()
print(len(metrics_list))  # num_metrics
accuracy_metric = load_metric('accuracy')
results = accuracy_metric.compute(references= [0, 1, 0], predictions= [1, 1, 0])
print(results)  # {'accuracy': 0.6666666}

《自然语言处理基于预训练模型的方法》- 第3章基础工具集与常用数据集「学习笔记」

NLTK工具集

数据集

Wikipedia 数据集使用方法

语料处理方法

纯文本语料抽取

中文简繁体切换

数据清洗

Hugging Face Datasets 使用方法

数据集获取

调用dataset

调用 metrics

添加新评论

最新文章

最近回复

分类

归档

其它

《自然语言处理基于预训练模型的方法》- 第3章 基础工具集与常用数据集「学习笔记」

NLTK工具集

数据集

Wikipedia 数据集使用方法

语料处理方法

纯文本语料抽取

中文简繁体切换

数据清洗

Hugging Face Datasets 使用方法

数据集获取

调用dataset

调用 metrics

添加新评论

最新文章

最近回复

分类

归档

其它

《自然语言处理基于预训练模型的方法》- 第3章基础工具集与常用数据集「学习笔记」