自然语言处理
学术领域可以做什么?
翻译软件:结合上下文语义,寻找最合适的词义,避免歧义修改语法错误等
润色软件:替换同义词,根据文章要求,做出润色美文就选择华丽的辞藻学术论文就选择更专业的无情情感色彩的陈述词
商业领域可以做什么?
数据挖掘:大数据交易所,将信息数据挖掘出来,清洗,筛选打包成有价值的数据,进行数据交易
数据分析:对获取到的数据,做成以图表,词云的展现形式对行业形势,公司效益,产品情况进行分析。例如:应用市场,公司可以利用大量的用户对某个app的评价反馈,通过文字,感情色彩,评分,来分析这个app是否受欢迎,来扩大利润空间或者做出优化体验,功能改进等
Jieba分词库
jieba库是一款优秀的 Python 第三方中文分词库jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式
- 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
- 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
- 搜索引擎模式:在精确模式的基础上,对长词再次进行切分
常用函数
探索任务
探索任务2——获取文章的主要信息(词频)
任务思路:
- 读取文本——进行分词
- 创建字典,记录分词结果的词频
- 3.清洗数据,筛选有用的数据 ①去掉单个词(字) ②去掉无用词(代词,连词,介词) 去掉低词频
- 4.打印出筛选的结果
import jieba
f = open("计算机网络.txt",'r',encoding = "utf-8")
discard = ['因为','所以','但是','你们','他们']
s = f.read()
re = jieba.lcut(s)
dic = {}
for i in re:
if len(i) > 1 and i not in discard
if i not in dic:
dic[i] = 1
else:
dic[i] += 1
f.close()
作业任务
- 判断文章西游记的主角(词频)行者 八戒 三藏 悟净 龙马 如来 观音 玉皇大帝 金角
注意以上名字,在文章中叫做行者,而不是悟空