Please wait a minute...
 
主管单位:广东省科学技术厅
主办单位:广东省科技合作研究促进中心
编辑出版:《电脑与电信》编辑部
ISSN 1008-6609 CN 44-1606/TN
邮发代号:46-95
国内发行:广东省报刊发行局
《电脑与电信》唯一官方网站。
电脑与电信
  应用技术与研究 本期目录 | 过刊浏览 | 高级检索 |
基于CBOW模型的个人微博聚类研究
宋添树,李江宇,张沁哲
内蒙古科技大学信息工程学院
Research on Personal Microblog Clustering Based on CBOW Model
SONG Tian-shu, LI Jiang-yu, ZHANG Qin-zhe
Inner Mongolia University of Science and Technology
全文: PDF(0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰。本文将语义相似度大的微博聚类以 方便用户浏览。主要研究工作如下:1. 使用python 中的jieba 分词对个人微博进行分词预处理并去除停用词;2. 将分词数据集 利用CBOW模型训练词语向量;3. 用词语向量表示个人微博句子向量;4. 个人微博句子向量表示成空间中的分布点,使用改进 的曼哈顿句子算法计算距离即个人微博间的相似度。5. 使用改进的clarans 算法聚类。实验表明本文的方法与传统聚类算法 如划分法、层次法、密度法等有明显的提高。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
宋添树
李江宇
张沁哲
关键词 个人微博语义聚类机器学习    
Abstract:Personal microblog is a popular social tool. The number of users is troublesome because it is confusing to users. This article clusters microblogs with high semantic similarity to facilitate user browsing. The main research work of this dissertation is as follows: 1. Use jieba segmentation in python to preprocess word segmentation and remove stopwords of personal microblog; 2. Use segmentation dataset to train word vectors using CBOW model; 3. Express personal microblog sentence vectors using word vector; 4. Personal microblog sentence vectors are represented as distribution points in space, using the modified Manhattan sentence algorithm to calculate distances, ie similarities between individual microblogs. 5. Use a modified clarans algorithm for clustering. Experiments show that the method of this paper is obviously improved compared with the traditional clustering algorithms, such as the method of dividing, the method of layering and the method of density.
Key wordsindividual microblog    semantic    clustering    machine learning
年卷期日期: 2018-04-10     
ZTFLH:  TP391  
作者简介: 宋添树(1993-),男,山东淄博人,硕士研究生,研究方向为数据挖掘与自然语言处理。
引用本文:   
宋添树, 李江宇, 张沁哲. 基于CBOW模型的个人微博聚类研究[J]. 电脑与电信, .
SONG Tian-shu, LI Jiang-yu, ZHANG Qin-zhe. Research on Personal Microblog Clustering Based on CBOW Model. Computer & Telecommunication, 2018, 1(4): 69-72.
链接本文:  
http://www.computertelecom.com.cn/CN/  或          http://www.computertelecom.com.cn/CN/Y2018/V1/I4/69
[1] 曹聪慧 兰 强 侯 群 漆为民. 基于远程学习的关键词提取技术研究[J]. 电脑与电信, 2021, 1(8): 1-5.
[2] 张志源. 基于聚类的应用层DDoS攻击检测方法 [J]. 电脑与电信, 2021, 1(7): 25-28.
[3] 刘卉芳. 基于运营商大数据的反欺诈模型研究与应用[J]. 电脑与电信, 2021, 1(7): 46-52.
[4] 李慧芳 钟新成 付晓丽. 基于密度峰值聚类的大学生异常行为检测研究[J]. 电脑与电信, 2021, 1(3): 26-29.
[5] 王玉 何珍祥. 机器学习算法在入侵检测中的应用研究[J]. 电脑与电信, 2020, 1(7): 1-3.
[6] 王艳军 李 舒 陈子航 董 坤 沈雪静. 基于聚类分析的智能答疑系统在招生 咨询方面的应用[J]. 电脑与电信, 2020, 1(5): 3-.
[7] 孙慧婷 马健. 基于K-means算法的高校智能化宿舍分配研究[J]. 电脑与电信, 2019, 1(5): 29-32.
[8] 童莲. 大数据背景下的机器学习算法应用研究[J]. 电脑与电信, 2018, 1(9): 29-31.
[9] 魏爽. 一种文本聚类的增强数据挖掘方法[J]. 电脑与电信, 2018, 1(3): 46-48.
[10] 王 旺. 基于机器学习的基站覆盖范围仿真[J]. 电脑与电信, 2018, 1(11): 45-47.
[11] 卫小强. 基于深度学习的过完备字典稀疏 表示的矩阵分析[J]. 电脑与电信, 2017, 1(7): 97-99.
[12] 陈萍. 基于聚类技术的网络学习行为数据分析研究[J]. 电脑与电信, 2017, 1(4): 31-33.
[13] 刘利萍. 基于免疫智能的网络异常检测算法[J]. 电脑与电信, 2017, 1(12): 67-70.
[14] 李燕梅. 一种基于全局K-均值聚类的改进算法[J]. 电脑与电信, 2017, 1(11): 25-27.
[15] 陈闽韬, 匡芳君. 数据挖掘技术在医疗大数据中的应用研究[J]. 电脑与电信, 2017, 1(11): 34-36.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
  Copyright © 电脑与电信 All Rights Reserved.
地址:广州市连新路171号广东国际科技中心 邮编:510033
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
粤ICP备05080322号-4