Skip to content

自然语言处理

NLP 概述

什么是 NLP

自然语言处理是人工智能的一个分支,使计算机能够理解、解释和生成人类语言。

NLP 任务

  • 文本分类
  • 情感分析
  • 命名实体识别
  • 机器翻译
  • 文本生成

文本预处理

python
import re

def preprocess(text):
    # 转换为小写
    text = text.lower()
    # 去除特殊字符
    text = re.sub(r'[^\w\s]', '', text)
    # 分词
    tokens = text.split()
    return tokens

使用 Transformers

python
from transformers import BertTokenizer, BertModel

# 加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 编码文本
text = "Hello, world!"
inputs = tokenizer(text, return_tensors='pt')

# 获取嵌入
outputs = model(**inputs)
embeddings = outputs.last_hidden_state

文本分类

python
from transformers import pipeline

# 创建分类器
classifier = pipeline("sentiment-analysis")

# 预测
result = classifier("I love using transformers!")
print(result)

文本生成

python
from transformers import pipeline

# 创建生成器
generator = pipeline("text-generation", model="gpt2")

# 生成文本
result = generator("In the future, AI will", max_length=50)
print(result[0]['generated_text'])

上一章: 深度学习

下一章: 计算机视觉

基于 VitePress 构建