自然语言处理
NLP 概述
什么是 NLP
自然语言处理是人工智能的一个分支,使计算机能够理解、解释和生成人类语言。
NLP 任务
- 文本分类
- 情感分析
- 命名实体识别
- 机器翻译
- 文本生成
文本预处理
python
import re
def preprocess(text):
# 转换为小写
text = text.lower()
# 去除特殊字符
text = re.sub(r'[^\w\s]', '', text)
# 分词
tokens = text.split()
return tokens使用 Transformers
python
from transformers import BertTokenizer, BertModel
# 加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
# 编码文本
text = "Hello, world!"
inputs = tokenizer(text, return_tensors='pt')
# 获取嵌入
outputs = model(**inputs)
embeddings = outputs.last_hidden_state文本分类
python
from transformers import pipeline
# 创建分类器
classifier = pipeline("sentiment-analysis")
# 预测
result = classifier("I love using transformers!")
print(result)文本生成
python
from transformers import pipeline
# 创建生成器
generator = pipeline("text-generation", model="gpt2")
# 生成文本
result = generator("In the future, AI will", max_length=50)
print(result[0]['generated_text'])上一章: 深度学习
下一章: 计算机视觉