业界动态
LDA_LDA关键词_主题词提取_
2024-11-01 13:28
import pandas as pd

LDA_LDA关键词_主题词提取_

import re import jieba fp=open('dijiu.txt','r',encoding='UTF-8') data=fp.read() fp.close() data=data.replace(' ','') data=data.replace(',','') data=data.replace(' ','') data=data.replace(',','') data=data.replace('中国','') data=data.replace('全会','') data=data.split("。") #data = pd.Dataframe({'正文':data,}) data=pd.Dataframe(list(data),columns=['评论']) data_cut=data['评论'].apply(jieba.lcut) stop_word = pd.read_csv('stopword.txt',sep='hhe') stop_words = list(stop_word.iloc[:,0]) + [' '] data_after_stop = data_cut .apply(lambda x:[i for i in x if i not in stop_words]) index = data_after_stop.apply(lambda x:len(x)!=0) data_after_stop_not_null = data_after_stop[index] dic={} for i in data_after_stop: for j in i: if j not in dic.keys(): dic[j]=1 else: dic[j]+=1 score = pd.read_csv('BosonNLP_sentiment_score.txt',sep=' ',header=None) score.columns = ['word','word_score'] degree = pd.read_csv('degree.csv') degree.columns = ['degree_word','degree_score'] not_words = pd.read_csv('not.csv') not_words.columns = ['not_word'] not_words['not_word_score'] = -1 degree['degree_score'] = -degree['degree_score']/100 def get_score(x=None): t = pd.Dataframe(x) t.columns = ['word2'] t_score = pd.merge(t,score,how='left',left_on='word2',right_on='word') tmp = pd.merge(t_score,degree,how='left',left_on='word2',right_on='degree_word') ind = tmp['degree_word'].notnull() if a != (len(tmp)-1): tmp.loc[a+1,'word_score']=tmp.loc[a,'word_score']*tmp.loc[a+1,'degree_score'] tmp1 = pd.merge(tmp,not_words,how='left',left_on='word2',right_on='not_word') ind = tmp1['not_word'].notnull() if a!= (len(tmp1)-1): tmp1.loc[a+1,'word_score']=tmp1.loc[a+1,'word_score']*tmp1.loc[a,'not_word_score'] return tmp1['word_score'].sum() y=data_after_stop_not_null.apply(get_score) messge_ = data_after_stop_not_null.apply(lambda x:' '.join(x)) inde=y>0    以上就是本篇文章【LDA_LDA关键词_主题词提取_】的全部内容了,欢迎阅览 ! 文章地址:http://mdekt.bhha.com.cn/news/98.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 康宝晨资讯移动站 http://weazh.bhha.com.cn/ , 查看更多   
最新新闻
35位数!巨头收天价罚单,超全球GDP总和
10月31日,“谷歌被俄罗斯罚款35位数”冲上微博热搜榜第一。据央视新闻报道,当地时间10月29日,因谷歌公司在视频网站优兔(YouT
《NCX》软件的搜索功能如何使用?
一、概述《NCX》是一款功能强大的数据搜索和分析,它能够通过先进的搜索技术,帮助用户快速、准确地找到所需的数据。本篇文章将
世界科学史上十大“最意外的发明”
  俗话说 ” 需要是发明之母 “,然而许多发明家或许不太肯承认的是,” 运气 ” 有时也是发明之母。很多人都以为科学史上许多
SQL与NoSQL未来会走向融合?
开发应用程序时之前最基础的工作之一是评估该使用SQL还是NoSQL 数据库来存储数据。传统数据库,即使用SQL(结构化查
怎么查看每天网站有多少人访问?加个代码或插件就行了
当自己搭建好一个网站后,每天更新了文章,一定还想知道有多少人访问了自己的网站吧。查看每天网站有多少IP的东西,我们称它为统
Python 静态网页信息爬取
在当今数字化时代,数据的价值不言而喻。对于研究人员、开发者和数据分析师来说,能够从互联网的海量信息中提取所需
2023开年抖音直播带货分析
随着互联网技术的发展,以直播为代表的KOL(关键意见领袖)带货模式给消费者带来更直观、生动的购物体验,转化率高,营销效果好
9岁儿童脑筋急转弯
9岁儿童脑筋急转弯大全  还记得小时后和小伙伴们经常说的那些脑筋急转弯吗?它们充满着我们儿时的回忆。下面小编为您搜集了9岁
java操作minio删除文件夹及其文件方法
Minio是一款开源的对象存储服务,可以用来存储和管理大量的数据。在Minio中,可以使用Java API来进行对象的操作,包括上传、下载
上升造句
1、从方便计算的角度上建议段采用比例方程表示,下降段简化为以拐点分界的两部分直线。2、这个季度初,厂家新研究了一种型号的液
本企业新闻
推荐企业新闻