自然语言处理

学术领域可以做什么?

翻译软件:结合上下文语义,寻找最合适的词义,避免歧义修改语法错误等

润色软件:替换同义词,根据文章要求,做出润色美文就选择华丽的辞藻学术论文就选择更专业的无情情感色彩的陈述词

商业领域可以做什么?

数据挖掘:大数据交易所,将信息数据挖掘出来,清洗,筛选打包成有价值的数据,进行数据交易

数据分析:对获取到的数据,做成以图表,词云的展现形式对行业形势,公司效益,产品情况进行分析。例如:应用市场,公司可以利用大量的用户对某个app的评价反馈,通过文字,感情色彩,评分,来分析这个app是否受欢迎,来扩大利润空间或者做出优化体验,功能改进等

Jieba分词库

jieba库是一款优秀的 Python 第三方中文分词库jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式

  • 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
  • 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
  • 搜索引擎模式:在精确模式的基础上,对长词再次进行切分

常用函数

image-20230608171934086

探索任务

探索任务2——获取文章的主要信息(词频)
任务思路:

  1. 读取文本——进行分词
  2. 创建字典,记录分词结果的词频
  3. 3.清洗数据,筛选有用的数据 ①去掉单个词(字) ②去掉无用词(代词,连词,介词) 去掉低词频
  4. 4.打印出筛选的结果
import jieba
f = open("计算机网络.txt",'r',encoding = "utf-8")
discard = ['因为','所以','但是','你们','他们']

s = f.read()

re = jieba.lcut(s)
dic = {}

for i in re:
    if len(i) > 1 and i not in discard
        if i not in dic:
            dic[i] = 1
        else:
            dic[i] += 1

f.close()

作业任务

  1. 判断文章西游记的主角(词频)行者 八戒 三藏 悟净 龙马 如来 观音 玉皇大帝 金角

注意以上名字,在文章中叫做行者,而不是悟空

最后修改:2024 年 06 月 01 日
如果觉得我的文章对你有用,请随意赞赏