前言:寻找写作灵感?中文期刊网用心挑选的大学生个性化学习推荐系统研究,希望能为您的阅读和创作带来灵感,欢迎大家阅读并分享。
【摘要】本文通过针对2019年计算机专业的53万条招聘文本,利用Word2vec对文本实施向量化、通过KMeans聚类对将技术需求从招聘文本中抽取出来,再通过二次聚类提取技术词汇。通过应用关联分析,从海量招聘文本中学习计算机技能之间的潜在关联,为计算机系在读学生提供学习指导。
【关键词】非结构化数据;机器学习;关联分析
0引言
计算机专业中的技术知识的多样化导致了在校生对于课外的技术学习产生困惑。招聘网站中的招聘信息往往以语言文本的形式存在,虽然蕴含丰富的价值,但是由于文本理解的难度,难以结构化。若能从中挖掘有效信息,探究数据间的关联,将能为毕业高校生提供合乎市场需求的技术学习方案。
1技术背景
1.1Word2vec
Word2vec是Google推出的用于获取词向量的工具包。其主要思想是将词表示为一个N维实数向量,两向量的相似度可以用来度量其对应词的语义相似度或语义相关度[1]。
1.2关联分析
关联算法可以发现一个事物与其他事物之间的相互依存性和关联性。例如被众人熟知的购物篮分析,通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。关联分析可以借由支持度,置信度和提升度来发现联系如关联规则或频繁项集。
2设计思路与具体步骤
2.1数据集
数据集为2019年爬取的就业数据,共539215条记录,主要内容为岗位需求的文字描述。
2.2数据预处理
每一条招聘信息由多个单句组成的段落。利用jieba工具实现对单句的分词操作,同时过滤其余不需要的字符。
2.3文本向量化
选用Word2vec技术进行文本向量化处理。利用分词后的文本数据集作为语料库,构建词向量模型。其中,特征向量维度为200维,词频至少为50。
2.4单句聚类与技术词汇聚类
词向量模型的词语,实际上是大量的无标签文本。加载词向量模型并根据模型中已有的词语对前100万条单句数据进行向量值计算,以单句中各词向量值的平均值作为单句的向量值存入单句向量列表。再将单句向量列表转换成Numpy数组作为训练集,通过KMeans聚类将向量值相近的单句聚于一簇中,并标注簇别,其中簇数量设定为8。至此第一次聚类完成,如图1所示。观察聚类结果,发现不同类别的语句被归类,其中一簇以技术需求为主。选取该类作为基础,对该类以单词为基础进行单词级别的二次聚类。经过反复探索,将簇数量设定为4。此时技术词汇被聚集在同一簇,根据记录数降序排列。
2.5结构化
获得技术清单后,就可以将原有的文字描述的招聘需求(Job列)转为结构化的招聘清单(JobWords列)列表。
2.6关联分析
在前文将每一条招聘信息文本转为技术清单后,通过Apriori算法获取频繁项,并按照支持度降序排序,共有424个频繁项集。再将频繁项集作为association_rules()方法的参数,指定合适的置信度,可以计算出符合条件的强关联规则。其中规则支持度、置信度、提升度,均可作为结果的判定标准。通过频繁项集可以根据用户提供的技术名词检索出其他有关联的词语,完成技术推荐,图3为其中三例推荐的结果。
3结束语
本课题目的是实现非结构化招聘文本到结构化文本的转化与有价值信息的提取,为高校生提供学习参考。使用经典的NLP方法的同时,加入了多个机器学习算法丰富探究过程,主要包含数据预处理、文本向量化、聚类操作、信息提取等步骤。本文为二者结合提供了一个新思路,并挖掘了潜藏信息。基金项目:省级大学生创新创业训练计划“基于机器学习的大学生个性化学习推荐系统”(ZJ1946)。
参考文献
[1]刘康,仇培元,刘希亮,等.利用词向量模型分析城市道路交通空间相关性[J].测绘学报,2017,46(12):108-116.
作者:颜中伟 马云莺 刘毅鹏 连松伟 郑豪 单位:福州大学至诚学院