个性化推荐范例6篇

前言:中文期刊网精心挑选了个性化推荐范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

个性化推荐

个性化推荐范文1

[关键词]个性化推荐算法;协同过滤

doi:10.3969/j.issn.1673 - 0194.2015.08.059

[中图分类号]TP301.6 [文献标识码]A [文章编号]1673-0194(2015)08-0078-02

由于网络数据正在快速的发展,人们能够接触到的海量的信息,例如,拥有数百万种独特商品的亚马逊,在Google Music曲库中,有上千万首歌曲,淘宝在线商品数量达到8亿件以上,腾讯微信用户以及新浪微博用户都超过5亿以上,这些用户很难在海量的信息中找到自己喜欢的信息,也就是所谓的“信息过载(information overload) ”的问题,而推荐系统和搜索引擎是解决此问题的关键技术,和搜索引擎相比较,用户更喜欢使用个性化的推荐系统,这是由于个性化推荐系统能够主动的对用户浏览过的日志、注册的信息以及历史评分记录等方面进行分析,从而找出用户更感兴趣的项目特征,然后对用户感兴趣的信息进行私人定制,根据用户项目信息和用户需求,对推荐的内容和信息的变化进行及时的调整,实现“以用户为中心”的服务。对个性化推荐算法进行设计,能够有效的解决当前信息过载的问题,让用户更快捷、方便的进行对信息的搜索和浏览。

1 个性化推荐系统的概念

个性化推荐系统主要根据用户喜好特点以及拥有的购买行为,从而自动的推荐用户有兴趣的商品或者是信息。这种系统的出现是由于电子商务规模的扩大,使商品数量以及信息等都在上涨,用户在这种情况下,需要用大量的时间才能够找到自己喜欢的信息,因此,为有效的解决这个问题,个性化推荐系统就此诞生。也就是说,个性化推荐系统是一个拥有在大量数据中挖掘的能力,从而形成的高级智能商务平台,能够帮助电子商务网站为顾客提供的完全个性化的信息服务以及决策支持。如图1所示。

2 个性化推荐算法的分类

推荐系统是利用信息源给用户进行预测和项目推荐,在整个过程中,具有重要的作用。根据信息的不同。比如,信任度、标签、人口统计信息等,以及对评价指标的考虑。

2.1 基于内容的推荐算法

这种推荐法也称为基于内容的信息过滤推荐(content-based recommendation),基于内容的推荐算法不需要用户对推荐对象给予评价,但是要把推荐对象的特征进行抽取出来,从用户以前所选择的对象内容去感应用户的偏好,然后用于偏好相似的对象推荐给用户。其效用函数( u,c)可表示为f( u,c) = score( ContentBasedProfile(u) ,Content(c))。Score 可以用二者的余弦相似度进行计算。最后用所得到的函数值对其进行排序,将最前面的项目当做推荐对象。该算法的推荐结果虽然符合用户的喜好,但是缺乏新颖度。

2.2 协同过滤推荐算法

该算法是根据系统里其他用户的历史数据或者评分记录(比如,亚马逊用户购买商品的记录),协同过滤推荐( collaborative filtering recommendation)是当今最为流行的一种算法,目前,主要的协同推荐技术有两种,一种是基于模型的协同推荐,一种是基于内存的协同推荐,基于模型的协同推荐是通过历史数据预测模型,然后通过模型参与评分预测,后者是使用历史记录数据进行的预测模型,它们的不同是由于客户的偏好。

2.2.1 基于模型的推荐算法

项目数量及用户规模的增长,致使出现数据集稀疏的问题愈加严重,比如,Netflix的影评数据集就缺失大约99%的数量,因此,基于内存的协同算法要将大规模的增长,而且,由于数据出现稀疏的现象,推荐结果的质量就会产生下降的趋势。基于模型的推荐算法( model-based collaborative filtering),其中心思想就是利用客户的评分结构进行评分预测模型,从而使用了数据挖掘计算模型和多种计算学习,通过模型实现对评分的预测。

2.2.2 基于内存的协同推荐算法

根据对基于内存协同推荐的考虑角度的不同,可以将其分为基于用户( User-based) 和基于项目 ( Item-based) 的协同推荐。基于内存的协同推荐( memory-based collaborative filtering)也叫做启发式的协同推荐,能够对用户的历史数据进行分析从而提供预测结果,比如,用户-影评矩阵。在 User-based 模型中,用户间相似度能够选择不同的相似度函数来计算。

3 个性化推荐算法常用的数据集

3.1 Netflix 数据集

这种数据集主要是来自电影网站的Netflix,这个网站有480 189位用户对17 770部电影进行了共有100 480 507条的评分记录,数据区间为[1,5]的离散整数值,与MovieLen 评分有所不同,Netflix目前是全球规模最大的电影评分数据集,但由于该比赛已经结束,因此,该数据集目前已不对外开放。

3.2 腾讯微博数据集

在2012年,由于数据挖掘与知识竞赛(KDD-Cup),因此,腾讯微博数据集形成,此数据集是在腾讯4.25亿微博用户中,经过50天的数据采样得到的。该数据集有6 000万信息员或被推荐用户、300多万收听动作和3亿多条推荐记录,该数据集的规模现已超过原来的 KDD Cup比赛。

3.3 Yahoo! 音乐数据集

该数据集主要包含了用户对专辑、单曲、歌手等不同音乐元素进行评分,对于评分的区间是0-100之间的证书,一共涉及624 961个音乐元素,1 000 990 个用户,262 810 175条评分记录。

3.4 CiteULike 数据集

该数据集是由施普林格出版社( Springer)提供协助用户管理、存储及分享学术文章的网站,用户可以根据自己感兴趣的论文,给它们打上标签,从而可以在专门的地方查找到,并且还能够为其他选择论文的朋友提供依据。CiteULike 公布了包含给论文打标签和收藏论文的数据集,其中,这个数据集有1 793 954篇论文、52 689个用户和2 119 200个用户与论文间的关系。

4 结 语

个性化推荐在电子图书、电子商务等领域被广泛的应用着,随着个性化推荐系统的不断的变化,推荐算法逐渐暴露出越累越多的缺点,有待解决。因此,对个性化推荐算法设计进行研究,不仅能够实现完善个性化推荐系统,同时还能够促进企业的可持续发展,进而为社会做出贡献。

主要参考文献

[1]赵亮,胡乃静,张守志.个性化推荐算法设计[J].计算机研究与发展,2012(8):986-991.

个性化推荐范文2

    .1 文献标识码:A 文章编号:1001-828X(2012)08-0-01

    一、个性化推荐

    1.定义。随着电子商务规模的逐渐扩大,网上商品的种类和数量也快速增长。商品不断丰富,顾客购物选择的余地大大扩展,但顾客往往需要花费大量的时间才能找到合适的商品。这种浏览大量无关信息和商品的过程无疑会给消费者带来极大的不便,从而可能造成客户流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐是根据用户的资料信息、兴趣爱好和以往购买行为,向用户推荐其可能感兴趣的信息和商品。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物过程提供完全个性化的决策支持和信息服务。

    2.个性化推荐的作用。成功的个性化推荐系统,向用户推荐他们感兴趣的商品,从而促成交易,即将电子商务网站的浏览者转变为购买者;在用户购买过程中向用户推荐自己确实需要但在购买过程中没有想到的商品,有效提高电子商务系统的交叉销售;为用户提供个性化的推荐服务的同时,与用户建立长期稳定良好的关系,从而有效保留客户,提高客户的忠诚度,防止客户流失。

    3.知名购物网站中个性化推荐应用。淘宝网站为例,在登录已买到的宝贝页面,除了可以查看到用户购物历史记录,还有推荐内容,如:“您可能对这些宝贝感兴趣”;购物车页面的推荐,如:“您可能感兴趣的宝贝”“猜你喜欢的”。

    当当网为例,网站商有个性化推荐模块网站上有专门栏目“猜你喜欢”,点击进入,再分为“您可能感兴趣的商品”“和您兴趣相似的顾客还关注”;在已购商品页面,有推荐“根据您购买的商品,当当猜您会喜欢”。

    进入卓越亚马逊网站,提示用户“您好,请登录以获取为您订制的推荐”。

    二、个性化推荐系统主要算法

    完整的推荐系统由3个部分组成:收集用户信息的行为记录模块、分析用户喜好的模型分析模块、推荐算法模块。其中,推荐算法模块是最核心的部分。根据推荐算法的不同,推荐系统可以分为如下几类:

    1.关联规则推荐。关注用户行为的关联模式。如买了香烟的人大多会购买打火机,因此可以在香烟和打火机间建立关联关系,通过这种关系推荐其他产品。这种算法最为简单直接,往往也会把用户理解的过于简单,是不太智能的算法,所以这种算法基本被淘汰了,只有少数小规模购物网站还是这种推荐模式。

    2.协同过滤推荐。利用用户的历史信息,计算用户之间的相似性;利用与目标用户相似性较高的用户对其他产品的评价来预测目标用户对特定产品的喜好程度;根据喜好程度来对目标用户进行推荐。协同过滤又可分为两种:基于用户的协同过滤和基于商品的协同过滤。

    基于用户的协同过滤是第一代协同过滤技术,原理也很简单:人以群分,即在网站上购买相同商品的消费者应该有相似的兴趣偏好。系统找出这些有相同商品购买记录或浏览记录的用户,然后把他们还没购买的商品相互推荐,如把用户A买过、但用户B还没有购买的商品推荐给B,反之亦然。当然,在实际推荐应用中,系统会找到与A相似的多位用户,将那些A未购买而其他人已经购买的商品,计算概率,再进行排序,最后把排名靠前的商品推荐给A。

    基于商品的协同过滤,是目前使用最多的个性化算法。因为大型的购物网站,其用户数量远远大于商品数量,使用基于用户的个性化算法会造成很多问题。相应的,基于商品的协同过滤技术的原理:物以类聚,系统先判断哪些商品之间有潜在关联,再根据用户的购买记录,把关联度高的商品推荐给用户。比如“啤酒-尿布”看似风牛马不相及的商品,如果在销售记录中同时出现的频率越高,说明商品的潜在关联就越强,就可以向用户推荐。

    协同过滤算法可以发现用户潜在的兴趣偏好,从而为其推荐新信息;能推荐难以进行内容分析的产品;但由于是基于用户对产品的评分,所以对新用户进行推荐或者是对用户推荐新产品,精度不高。

    3.基于内容的推荐。基于内容的推荐是协同过滤技术的延续与发展。分别对用户和产品建立配置文件;比较用户与产品配置文件的相似度;推荐与其配置文件最相似的产品。如,在商品CD推荐中,基于内容的系统首先分析用户买过的打分较高的CD的共性(歌手、风格等),   再推荐与这些用户感兴趣的内容相似度很高的其他CD。基于内容的推荐算法根本在于信息获取和信息过滤。 基于内容的推荐算法能处理新用户、新产品的问题(冷启动);能推荐新产品和非流行产品,发现隐藏信息;但是如果两个不同的产品恰好使用了相同的描述词,这两个产品就无法区分;而且如果系统只推荐与用户的配置文件高度相关的产品

    ,那么推荐的只是与用户之前购买过的产品相似度很高的产品,无法实现推荐的多样性。

    4.基于网络结构的推荐。要先建立用户—产品二维关联网络。把用户和产品的内容特征看成抽象的节点,所有算法利用的信息都藏在用户和产品的选择关系中。对于任意目标用户A,假设A选择过所有的产品,每种产品都具有向A推荐其他产品的能力,把所有A没有选择过的产品按照他喜欢的程度进行排序,把排名靠前的推荐给A。

    基于网络结构的推荐同样面临着新用户新产品的问题。而且如果把用户与产品的所有关联关系都考虑在内,无法区分出长期兴趣和短期兴趣点,大大降低推荐准确度。

    5.混合推荐。上述几种方法的有机结合,实际的推荐系统中最常见的是基于协同过滤和基于内容的结合。

    三、个性化推荐技术的新应用

    一般情况下,网站针对已注册用户根据用户信息或购买记录进行推荐。同时,个性化推荐还应该考虑到匿名购买者,也就是购买者不需要注册或者登录也能使用个性化推荐功能。这类技术的实现要选择合适的匿名用户行为特征识别方法,如服务器端日志挖掘技术和客户端信息采集技术等,从而实现对此类用户的个性化推荐。

    针对用户存在多兴趣或兴趣发生转移情况,一些网站提出了基于项目相似性的邻居用户协同推荐算法。该算法改进了传统协同过滤算法,使之适合用户多兴趣下的个性化推荐。

    个性化推荐最热门应用就是将推荐和社会网络结合起来,把社会网络加入个性化推荐系统,借助顾客的朋友、家人的评分信息来进行推荐产品。它让顾客的朋友和家人做“导购”,把他们买的而且评分较高产品推荐给顾客。

    参考文献:

    [1]刘洋.面向电子商务网站的个性化推荐系统[J].中小企业管理与科技(上旬刊),2012(01).

个性化推荐范文3

关键词:协同过滤;基于用户;基于物品;相似程度

一、协同过滤推荐的研究现状

首先了解一下推荐系统,比较普遍认可的定义是Resnick和Varian在1997年[1]提出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定购买什么产品,模拟销售人员帮助客户完成购买过程。”而协同过滤是推荐系统中最常见也是最广泛应用的推荐方法。Grundy书籍推荐系统[2]是公认的第一个对协同过滤应用的系统。还有Tapes-try邮件处理系统[3],Ringo[4]等。Sarwar等[5]提出的利用夹角余弦来计算产品的相似程度。Chen和Cheng[5]通过观察不同产品在用户的列表次序来计算用户与用户的相似程度.而Yang和Gu[7]利用建立用户的兴趣点来计算用户与用户间的相似程度。

二、协同过滤推荐的主要思想

协同过滤推荐的思路可以说是来源于生活。通过在生活中购买产品你会发现一些有趣的现象。比如说,人们总是更倾向于相信来自熟人的推荐,在你的朋友圈内,很多朋友都在使用同一种产品,那么你就也会很大程度有意的选择此产品。另外就是,在你对某种产品感兴趣时,当你发现有和你感兴趣的这种产品类似的产品,与此同时,其他购买者对这种产品的体验良好,那么你也很可能会购买这种商品。协同过滤的主要思想可以分成两个部分:一是通过分析用户以往的购买或者选择信息,来计算用户之间的相似程度,通过相似程度高的用户可以说是近邻对一个产品或信息的偏好来预测目标用户的对此产品或信息的偏好程度。二是通过分析对用户以往对某类产品的评价情况来预测该用户对此类中新产品的偏好程度,及计算以往评价过的产品与要推荐产品间的相似度。

协同过滤推荐主要有两种,一个是基于User的,另一个是基于iterm的。

1、基于用户的方法主要是寻找与目标用户相似的用户,认为有相似偏好的用户可能对某个产品或信息有相似的评价。通过利用相似近邻的偏好程度来进行对目标用户的评价的预测。比如说有三部电影《饥饿游戏》《千与千寻》《分手大师》。A下载了《饥饿游戏》,播完了《千与千寻》,没播完《分手大师》。B多次观看《饥饿游戏》,播完《千与千寻》,没看《分手大师》。C下载了《分手大师》,没看《饥饿游戏》,没播完《千与千寻》。那么可以看出来A与B很相似,那么再出现一个电影《变形金刚》,A是多次观看,那么应该把变形金刚推荐给B而不是C。关于这个用户之间相似程度的计算,可以通过对电影的评分机制进行量化,然后利用夹角余弦来计算用户之间的相似程度。设用户i和用户j在n维对象的空间上的评分向量为i,j,那么计算cos(i,j)的公式为:

cos(i,j)=i・j|i|*|j|

若两个用户的夹角余弦值相近,则可认为他们是相似用户。

关于相似程度的计算还可以通过皮尔森相关系数和修正余弦函数相似性等很多方法。

2、基于物品的方法主要首先是计算物品与物品之间的相似程度,然后结合用户以前的购买评价过的物品或选择行为,最后对用户进行某种新物品的推荐。比如说A喜欢看《分歧者》,《复仇者联盟》,《超体》。然后有两部电影《何以笙箫默》和《敢死队》。可以很明显的看出可以向A推荐《敢死队》。基于物品的系统过滤在计算物品的相似度时,也是可以通过评分量化,很多时候也是可以加入tag技术,对物品打标签,做标签矩阵。比如A喜欢的电影中《分歧者》是有动作,爱情,科幻三个标签,每个标签的权重不一样可以按0到1之间的分值设定。然后同理其他电影,最后通过量化计算相似度发现《敢死队》更符合推荐。关于tag矩阵也可以是0-1矩阵。关于计算相似程度与(1)中提到过的方法类似。

三、协同过滤推荐的优缺点

协同过滤的优点有:

1、可以进行过滤复杂性的,机器难以进行提取有效自由文本的信息,如音乐,图像等艺术类信息。

2、相对容易给用户制造惊喜。与基于内容的推荐不同,推荐给用户的物品内容可能是用户不太熟悉的内容,很可能发现用户潜在的喜好但用户本身却没有意识到的。

3、用户的不断增加,协同过滤推荐系统的性能也会增高。

协同过滤的缺点:

协同过滤推荐算法的典型缺点就是稀疏性问题和冷启动问题。冷启动问题就是,当有新用户进入时,由于没有历史行为数据而无法对其偏好进行判断,因此对其进行推荐。同样当有新物品进入系统时,由于没有用户对其评价过,它就得不到推荐。

四、总结

个性化推荐服务实质就是有效率有针对性的解决大量数据的问题,推荐算法在一定程度上实现了这个问题,可是现实生活中,并不是一个算法,而是好几种类型的推荐算法混合运算,最后得出的推荐结果才能比较令人满意,也会比单一算法精确很多。关于推荐系统性能的评价指标最典型是精确度和推荐效率这两个指标。其中衡量精确度可以是平均平方误差,平均绝对误差和标准平局误差等。个性化推荐没必要非得追求完全精确,因为本身推荐的内容就无法保证用户百分之百的感兴趣,但是还是要努力不断追求精确度,这样才能发挥其自身解决超载问题,给用户提供感兴趣物品或信息的价值。网易云音乐作为音乐行业的后起之秀,在个性化推荐方面做的相当不错,很多用户反应网易云音乐的个性化推荐总是给人惊喜,虽然网易没有在这方面给出过多的介绍,但是不难看出,他们公司非常注重这个方面的功能板块。因此对这个时代而言,不仅仅是对电子商务方面,个性化推荐的价值以及意义都是非常重要的。(作者单位:河北大学)

参考文献:

[1] Resinick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[2] Rich E.User modeling via stereotypes.Cognitive Science,1979,3(4):329―354.

[3] Goldberg D,Nichols D,Oki BM,et al.Using collaborative filtering to weave an information m ACM,1992,35(12):61―70.

[4] Shardanand U,Maes P.Social information filtering:Algorithms for automating`Word of Mouth'.Proc Conf Human Factors in Computing Systems Denver,1995:210―217.

[5] Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms.Proc 10th Int' l WWW Conf,Hong Kong,2001:1―5.

个性化推荐范文4

[关键词] 个性化 电子商务 信息推荐

一、引言

现代电子商务技术的快速发展,给人们的生活和生产带来了深刻的影响。大量传统的商品交易行为和过程都开始并持续的向网络上转移。应该说,这种改变绝非一种仅仅形式上的改变,同时,也催生了很多新的交易方法和规则,如近年来诸如淘宝店面之类的新型创业模式等。然而,正如所有的网络应用一样,现代的电子商务技术也面临着很多挑战,其中比较明显的问题就是信息过载。由于电子商务网站数量众多,内容也可以达到几乎无限大的规模,显然这是传统商业模式所无法提供的。但与此相对的是,在网络环境下,客户却常常面对着海量的信息资源,无法在有限的时间内获取和了解到自己所想要的有效内容,这在很大程度上影响了客户使用电子商务站点的信心。近年来,人们对此进行了大量的研究和探索。随着个性化推荐技术的出现和发展,在电子商务站点中使用此技术将有助于上述问题的改善。

二、个性化推荐技术

个性化推荐技术通过一种类似于一对一营销式的营销战略技术,可以对电子商务站点的内容和服务进行自动化的大规模定制,以适应不同客户的个性化要求。在过去的几年中,个性化推荐技术越来越受到人们的关注,不同的学者往往给出并不一致的定义。如有人认为个性化是一种能力,这种能力可以根据从客户偏好和行为特征中提取到的知识来对客户提供定制化的服务和内容;也有人认为个性化综合使用了网络技术和客户信息,而这些信息包含已收集来的信息和实时产生的信息,有针对性的定制商业站点以适应客户的交互行为,这会有效的降低交易的处理时间和让客户得到更为满意的产品;还有的学者认为个性化是根据已有的偏好知识和交易活动中的行为,定制交流方法的一种能力,也就是说,个性化通过建立一种一对一的有义联系,理解客户的个别需求,帮助实现在特定的环境下准确和丰富的表达客户需求特征,从而增强客户的忠诚度。综上所述,虽然定义角度略有不同,但是所阐述的观点都是一致的,即个性化推荐技术是一种促使客户访问Web站点的体验更偏向于客户喜好的技术。

二、CtoC电子商务站点中个性化推荐技术特点

与其他诸如BtoB等类型的电子商务站点相比,CtoC电子商务站点中的Web用户行为特征具有较为明显的区别,造成这种区别的主要原因在于CtoC电子商务站点用户并非专业买家或者卖家,因此不论是从商品信息的质量,还是交易过程的完成,都有自己的特殊性。基于这种原因,在使用CtoC电子商务站点中Web个性化推荐技术的时候,必须要充分考虑这些用户行为因素,来选择合适和有效的技术实现方法。

结合CtoC电子商务站点用户的诸多行为特点,该种类型站点所能采用的Web个性化推荐技术应该有如下几个特点:

一是该种Web个性化推荐技术必须可以为匿名购买者提供推荐内容,购买者不需要注册或者登录也能使用个性化推荐功能。从交易过程来看,CtoC电子商务站点所面对的Web用户群往往都是各个非专业的大型商业实体,其中很大的一部分群体都是一般的小型商家和普通消费者,通过这种类型的CtoC电子商务站点,这些用户可以直接进行线下交易。具体来说,卖方用户必须是注册用户,并需要向该站点提供自己的联系信息,同时他们还可以所要销售的商品信息。而买方用户则不需要一定注册,事实上,为了方便用户使用,很多站点都允许匿名用户浏览选择所需商品。他们只需查询这些商品的信息,并选择所需的商品。一旦选择到合适的商品,买方用户就可以根据卖方用户所提供的信息直接与卖方用户取得联系。为此,在CtoC站点中使用个性化推荐技术的时候,一定要选择合适的匿名用户行为特征识别方法,如服务器端日志挖掘技术和客户端信息采集技术等,从而实现对此类用户的个性化推荐功能。

二是该种Web个性化推荐技术应该使用图片等多媒体信息和关键词结合的推荐内容。在具体推荐过程中,对于这些不同的图片信息可以通过所在网页的URL来惟一确定。从商品的信息来看,卖方用户可以的信息往往是包括图片和关键词在内的一些商品信息,其中,图片所包含的信息相对真实性较强,买方用户可以直接根据图片内容获知对商品的喜好程度,但是图片本身并不易于检索,买方用户在搜索所需商品时,很难直接定位所需商品的图片,相反,买方用户一般都是通过站点所提供的浏览界面来逐次查看,因此,单独利用图片信息就会缺乏有效的快速检索方法。所以,卖方用户往往需要同时提供销售商品的关键词信息,它通过几个简洁的文字来标明商品的重要特征,而且买方用户可以直接利用这些关键词进行快速搜索。但是,由于卖方用户的非专业性特点,或者由于某种主观因素的影响,卖方用户可能并不能或者不愿提供准确的关键词信息,这就造成关键词查询所产生的一个问题,那就是买方用户通过关键词虽然可以快速搜索到所需商品,但是,仍然需要进一步通过图片或者更为详细的文字说明来确定该商品是否满意。所以,将这两方面结合,可以给用户提供更为准确的推荐内容。

三是该种Web个性化推荐技术只负责内容推荐,不负责辅助交易行为的完成,甚至都无法实现主动推送功能。由于大部分CtoC站点的买卖双方都没有完善的网络交易渠道,真实的货款和商品交易往往都不在该站点上进行,站点只是一个沟通的媒介。所以,在提供个性化推荐内容时,站点并不需要事实上也不可能采用信息推送的推荐方法来向用户信息,更多的实际情况是在用户浏览商品信息时,站点能够在浏览页面上向当前用户展示推荐的商品信息内容。值得注意的是,近年来随着网络技术的快速发展,电子商务平台也越来越多的开始集成在线支付等电子业务,如阿里巴巴的支付宝等。

除此以外,CtoC电子商务站点中Web个性化推荐技术还需考虑很多其他因素,比如由于每种个性化推荐技术都存在一定的局限性,所以可以综合运用多种个性化技术来处理不同的推荐内容和方法,以达到更好的推荐效果等。

三、发展与展望

首先,从用户兴趣模式表达上看,未来的发展趋势之一就是结合语义智能分析。用户个性化推荐技术的关键内容在于准确和有效的表达用户兴趣模型,并基于此模型来计算与推荐客体的相关度,因此,如何有效和准确表达用户的个性化特征成为所有个性化推荐方法的基础和重要影响因素。目前,常见的方法主要分为两大类:一类是基于关键词表达(Keyword-based)的用户兴趣模型,这种方法出现较早,简单易行,它主要使用与当前用户个性化特征相关的关键词序列来表达用户兴趣模型;另一类是基于语义表达(Semantic-based)的用户兴趣模型,该方法在基于关键词表达的方法之上,利用词语概念和彼此之间的语义联系来构造较为完整的语义层次模型或者语义网络模型。由于该方法可以更好的处理一词多义和多词一义的各种语言现象,所以近年来逐渐受到学者的广泛关注。对于如何表达这种语义特征,伴随着用户本体理论的研究和发展,很多学者都尝试使用XML数据结构来表达用户个性化信息,并以此来构造语义信息更为丰富的用户兴趣模型。

其次,从个性化推荐技术的应用领域看,目前的个性化推荐技术主要应用于Web站点之中。此时,在个性化服务中起到基础作用的用户兴趣模式却往往分散于各个Web应用系统中,虽然每个Web站点都会给自己的用户提供和存储相应的用户兴趣模式,但是这种用户兴趣模式却不能共享于其他相关的应用领域,所以用户往往需要不断的维护在各个Web站点上的不同兴趣模式,这显然增加了用户的使用成本。由此,用户对自己的兴趣模式难以形成十分确切的概念,也难以在用户心中形成一个统一的印象,更难以让用户对自己的兴趣模式进行有效的控制。事实上,已有的一些系统已经开始对此进行研究,通过制定标准来允许用户对自己的个性化兴趣模式进行有效的管理。近年来随着移动设备的快速发展,个性化服务的范围也逐渐扩大到移动网络服务中,这种方式被称为便携式个性化信息服务(Portable Personalization Information Service)。通过与移动设备的有效结合,并在各种移动终端设备上存储相关用户兴趣模式信息,才能更有效的发挥这种用户模式的复用性。如有的系统使用一种被称为“简化卡(Simplicity Card)”的智能体,其中存储有用户的兴趣模式信息和个人数据,同时可以和移动设备结合起来,很多用户将这种智能体看成是一种个人标志,并且认为它极大的扩展了用户自身。所以,这种新型的便携式个性化推荐服务开始逐渐成为现实。对于CtoC电子商务站点而言,这显然是一个发展潜力很大的空间。

参考文献:

[1]Schafer, J. B., J. A. Konstan, and J. Riedl. E-commerce recommendation applications

Data Mining and Knowledge Discovery, 5(1/2):115~153, 2001

[2]马 丽:电子商务个性化推荐技术分析及比较[J].计算机系统应用,2008,(12)

[3]Adomavicius,Tuzhilin. Personalization technologies: A process-oriented perspective[J].Communications of the ACM,48,10(2005)

[4]Personalized Gifts and Personalized Gift Ideas from Personalization Mall. 省略/, 2005~3~24

个性化推荐范文5

关键词:搜索引擎;推荐;系统

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)22-5370-03

基于社会计算的个性化推荐系统的搜索引擎是系统开发的一个重要环节,该搜索结果质量直接关系到系统的性能,从而直接影响到系统的整体性能。本系统中解析的文档类型以html文档为主,采用Lucene搜索引擎,独立于运行平台的方式,实现了文档的解析和索引的创建。

1 Lucene搜索引擎简介

1) Lucene

Lucene 是一个出色并且是开源的全文搜索引擎。他并不是一个完整的全文检索应用,但是它提供了大量的 API ,可以方便能够高效快捷地地对全文创建索引,最主要的是,他可以对现有的在各种各种的系统增加全文检索的功能,官方也一直维护、更新版本,使用越来越方便,深受广大编程者和用户的青睐。

Lucene是一个高效的、 可扩展的全文检索库, 仅支持纯文本文件的索引(Index)和检索(Search), 并不处理从其他格式的文件中抽取纯文本文件, 或从网络中抓取文件。简单地说, Lucene实现两个功能,分别是索引和检索。索引所做的工作是为各种各样的文档构建Lucene 所能够识别的索引文件。

Lucene作为一个非常优秀并且开源的全文搜索引擎,不仅性能高,架构清晰,扩展性强,而且其建立索引后的文件格式也独立于应用平台,从而使索引文件能够跨平台共享,对任意可转换为文本格式的数据都能够进行索引和搜索。例如html网页、本地中的ppt,txt,pdf等等都可以对其建立索引。

首先, Lucene集成了多种文档解析器, 能够对大部分主流文本文件 如:html, pdf, MS Word, Text File等等进行解析, 抽取纯文本内容。由于Lucene只能索引纯文本, 所以必须借助于上述各种不同功能的解析器对各种不同类型的文档进行解析。

然后, 使用Lucene的分词器(Analyzer),对提取出的纯文本内容进行索引, 并生成索引项,以供做搜索之用。

最后, Analyzer把生成的信息写入索引文件之后。搜索所做的工作是使用反向索引找出与用户请求相匹配的文本内容并返还给用户。 因为,Lucene 默认情况下不对用户输入的搜索关键词进行分词处理。所以,这部分不重点讨论搜索的内容,相关内容在下面的章节中讲解。

2) 引擎结构

Lucene搜索引擎对系统的要求不高,既可以运行在Windows系统上,也可以运行在Linux系统上。搜索引擎使用的一般是集中式。把多个服务器的网络资源通通下载到本地,目的是为建立索引和文本搜索做准备,这就是集中式的处理方法。如果按照按结构分,Lucene引擎结构可由搜索器、 索引器和检索器等组成。

搜索器就是网络机器人(网络蜘蛛)。利用这种爬虫程序,在遵从机器人排除协议的前提下,从某个网页开始,提取URL网址,如此循环,不断地提取到新的 URL 网址,同时取出相应 URL 的资源。

索引器的则是利用下载的到的各种网络资源,提取各种资源的索引项,为生成文档库的索引表做准备。

检索器主要任务是通过辨识用户的查询需求,在文档库中进行快速匹配查找并且检索出相应的文档,之后就是对文档进行相关性排序,并提供一个网页链接供用户操作。所以,,一个出色的搜索引擎如果把这三个部分都做得好,用户的使用需求就一定可以得到满足。

3) 解析网页和索引入库

把网页中的元素标记( Token) 及其标记之后的内容提取出来,目的的是利于入库,这就是网页的解析。一个字段都要有一个Token与之相对应。可以理解为此字段的内容就是Token 的内容。

使用的实现方法:自定义一个 Parser 解析类,接着实现网页文件流的读入,然后把这个流解析成以字符串格式输出,为下一步处理做准备,最后循环提取 Token 及其相关内容。提取每一个Token 的目的是给不同的 Token 加上不同的权值。这样在搜索出结果的时候,就可以根据不同的权值来排序。提取 Token便可以入库:

2 Lucene分词器

1) Lucene分词简介

lucene将关键词出现频率和关键词出现位置分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键词的频率信息和位置信息。

Lucene特点是关键词是按字符顺序排列的,其内部没有集成使用B树结构,所以可以用二元搜索算法快速定位Lucene的关键词。

Lucene中也使用了field(域)的概念,用于表达信息所在位置。如标题、内容、url等等。需要指出的是这些域(field)是可以自定义设置的。在索引文件中,每一个field(域)的信息也记录在词典文件中,每个关键词都有一个field信息,因为每个关键词一定属于一个或多个field。 关键词没有在field(域)中出现,就意味着用户想要找的内容没有出现在数据库中。

为了减小索引文件的大小,Lucene对索引使用压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为,例如:当前词为“广东省东莞”,上一个词为“广东省”,那么“广东省东莞”压缩为。

其次大量用到的是对数字的压缩,数字只保存与上一个值的差值,目的是减小数字的长度,进而减少保存该数字需要的字节数。例如当前文章号是1279(不压缩要用3个字节保存),上一文章号是1273,压缩后保存6(只用一个字节)。使用压缩技术的好处就是提高搜索的速度和效率。需要指出的是,Lucene3.5版本后,不需要手动处理索引文件,当索引的文件大到一定的程度之后,Lucene会自动的压缩索引文件。

2) Lucene分词原理

a. 建立倒排索引。同时记录关键词在文章中出现频率和出现的位置。如何用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是长到无法忍受的。

b. 获得文章/记录中的关键词,并对关键词进行处理。如:lives,livinglive

3 IKAnalyzer分词器

1) IKAnalyzer分词简介

对信息进行索引前,需要要对关键词进行分词。英文使用空格和标点来分隔单词 而中文使用表意文字,不能通过空格和标点来进行分词。Lucene 自带的分词器,有StandardAnalyzer, StopAnalyzer ,SimpleAnalyzer,WhiteSpaceAnalyzer。这些分词器要么是单字分词 要么采用停用词分词,要么采用简单的分词,要么是按空格分词。

但是,它们并不能有效地解决中文分词的问题。目前中文分词算法工具包大致包括paoding、imdict、mmseg4j、IK。其中最常用的是IKAnalyzer,下面我大致介绍一下这个中文分词器,结构图1所示。

2) IKAnalyzer特点

IKAnalyzer支持多子处理器语言分析模式:中文、数字、字母,并兼容日文、韩文。它采用“正向迭代最细粒度切分算法”的算法,支持细粒度和最大词长两种分词方式,速度最大支持80W字/秒,即1600KB/秒。此外,它扩展lucene的扩展实现,采用歧义分析算法优化查询关键词的搜索排列组合,提高lucene检索命中率。同时,它具有较小的内存占用,优化词库占有空间,用户可自定义扩展词库。

IKAnalyzer由org.wltea.analyzer.IKSegmentation和org.wltea.analyzer.lucene.IKAnalyzer两大主要类组成,其中,org.wltea.analyzer.IKSegmentation是IK分词器的核心类,真正分词的实现类。而org.wltea.analyzer.lucene.IKAnalyzer则是IK分词主类,基于Lucene的Analyzer接口实现。

4 基于Lucene的IKAnalyzer分词器

1) paoding、mmseg4j和IKAnalyzer

目前流行的几大开源分词器主要有:paoding、mmseg4j、IKAnalyzer,它们三个都是基于JAVA语言开发的,各有优劣,具体如下:

mmseg4j:有两种分词方法,Simple和Complex,目前 complex 1200kb/s左右,simple 1900kb/s左右,但内存开销了50M左右。采用MMSeg算法,代码复杂度是2500行左右代码。有英文文档,原理比较简单。有自带搜狗的词库,支持自定义词库,不支持自动检测。 自带词库16W个。Lucene和solr的支持:支持Lucene2.4、solr1.3。

Paoding:采用基于“不限制个数”的词典文件对文章进行有效切分算法,使能够将对词汇分类定义,代码复杂度是7000行左右代码。1秒可准确分词100万汉字。支持不限制个数的用户自定义词库,自动检测词库的更新。自带词库22W个。

IKAnalyzer:每秒80W字。采用正向迭代最细粒度切分算法,代码复杂度是4500行左右代码,有一个中文使用手册,支持自定义词库,不支持自动检测。 自带词库27W个。

根据上面介绍,结合本系统特点,本系统采用基于Lucene的IKAnalyzer分词器。

2) 自定义同义词分词器

Lucene分词机制:索引过程和查询过程都用到了一个关键工具分词器analyzer。它将要被索引的内容以流的形式读入,经过词语切分、过滤干扰词等一系列处理,最终输出一个语汇单元流、每个语汇单元携带了一个文本值和它的一些元数据,原文本从起点到终点的偏移量、语汇单元类型和position incremen。

同义词索引原理:索引器将语汇单元写入文件时会丢弃每个语汇单元的起点偏移量和终点偏移量。位置增量是语汇单元携带到索引文件的唯一附加元数据。这个值的意义是当前单词与前一个单词的位置偏移量。当这个值为 0 是表示当前单词与前一个单词被索引到同一个位置上。但是 Lucene 对中文语言处理能力十分有限,无法中文语义分词只能将一句话机械性的分成单字或双字 。例如: 用单字分词会将“我来自广东” 切分成 :“我” “来” “来” “自” “广” “东”。显然,这种情形为每个字添加同义词索引是没有意义的 因此 需要一个功能更强大的中文分词器来支持。

本系统采用堆栈的形式来保存同义词的词组或单词。如(“中国”,“大陆”),(“我”,“咱”)等等都可以是同义词。自定义同义词分词器使用四个类来实现。

MyDefinedSameAnalyzer类主要是加载的搜狗中文分词器。使用栈来定义过滤器是MyDefinedSameTokenFilter类。DefinedSamewordEngine类是一个接口,使用接口有利于程序的扩展。DefinedSimpleSameword类是定义同义词字典,并判断如果有同义词就返回true

3) 自定义停用词过滤分析

在关键词处理过程中,有可能会经常出现没有意义的词。如,“是”,“来”等等。除此之外,停用词分析器StopAnalyzer也已经把没有意义的英文单词收录到停用词表中。默认情况下,这个表被用来滤词用户输入关键词中的词汇,还可以过滤掉一些特定字符,如&,*等,也会把英文的大写字母自动转换成小写字母。

还有就是,当搜索系统需要屏蔽掉一些用户输入的中文敏感词的时候,就得把敏感词自动的过滤掉。这个时候就得使用lucene强大的停用词分析器。由于Luene自带有停用词分析器StopAnalyzer,这使得要过滤掉停用词就变得非常简单。而且使用Lucene3.5的版本,也支持中文分词。

自定义一个停用词表就可以过滤掉自己设定的中文或者英文的敏感词。默认情况下,Lucene会把系统自带的英文停用词加载在停用词分析器中。TokenStream读流属性中的数据即读出数据。另外,停用词分析器StopAnalyzer自动把数字给过滤掉了,所以要实现数字的搜索需要经过特别的处理。具体的处理过程可以参考GxjtController类的searchcont( )函数的代码部分。

为了实现该功能,搜索的关键词要先经过过滤器处理,再经过同义词的处理。

参考文献:

[1] 冯斌.基于 Lucene 小型搜索引擎的研究与实现[D].武汉:武汉理工大学,2008.

[2] 杨馥显,刘嘉勇.基于JSP的数据库开发技术研究[J].通信技术,2011,44(3):51-53.

个性化推荐范文6

[关键词]Web个性化推荐系统 Web挖掘 基于规则过滤 基于内容过滤 协作过滤

[分类号]G350 TP311

1 引言

Web个性化的用途主要是为用户提供独立的、特定个人偏好的、方便快捷的和满足用户需求的服务。对于不同的网站来说,实现个性化的目的具有其自身发展的需要。例如,商业网站的个性化是通过提供的便捷服务方式提升顾客忠诚度和吸引更多的客户,从而实现其销售业绩和商业利润最大化的需要。在公共服务领域,网站为了提高其服务质量,提升用户满意程度,根据用户关注的重点和信息需求,为其定制特定的个性化服务。专门研究Web个性化理论和方法的国际会议1TWP组委会主席BamshadMobasher教授从20世纪90年代就开始Web个性化的研究,他认为:“在Web网站中,个性化意味着动态内容的发送,例如文本元素、链接、广告和产品推荐等,这些内容专门为特定用户或者一部分用户的需要及兴趣定制”。他把Web个性化过程看作是一个包含数据挖掘循环所有阶段的一个典型应用。这些阶段包括数据收集、预处理模式发现、性能评价和在用户和Web网站之间应用实时发现的知识。

个性化的关键技术是推荐系统,其作用是根据用户模型推荐个性化内容,主要包括四种工作模式:基于规则过滤、基于内容过滤、基于协作过滤和混合过滤模式。本文重点介绍智能推荐方法和技术,并提出一种Web个性化应用智能混合过滤推荐模型。

2 Web挖掘与个性化推荐

个性化推荐是Web挖掘结果呈现给用户的应用,其依据原理是数据挖掘理论基础。许多学者认为,Etzioni是第一个提出Web挖掘(Web mining)技术的人,他认为,Web挖掘技术可分为三种类型:Web内容挖掘(Web content mining)、Web结构挖掘(Webstructure mining)和Web使用挖掘(Web usage mining)。Srivastava等人对Web使用挖掘的定义是:Web使用挖掘是应用数据挖掘技术,为了更好地理解和服务基于Web应用的需要,发现Web数据的使用模式。个性化推荐系统通常对日志数据采用Web使用挖掘。

Web挖掘使用的数据可能来自Web服务器访问日志、服务器日志、引用页日志、浏览器日志、错误日志、用户资料、注册数据、用户会话、用户交易、cookies、用户查询或者是用户书签数据。通过分析这些文件和文档,可以获得用户感兴趣的使用模式和信息。

目前常见的Web日志格式主要有两类:①Apache的NCSA日志格式,分为四类:NCSA普通日志格式(CLF)、NCSA扩展日志格式(ECLF)、错误日志格式和定制日志格式。②IIs的W3C日志格式,共分为8类:W3C扩展日志格式、集中记录的日志格式、NCSA普通日志格式、IIS日志格式、ODBC记录的日志格式、集中记录的二进制日志格式、错误日志格式和定制日志格式。无论是Apache还是IIS的日志格式,常用于信息分析的是扩展日志格式和定制日志格式。通常情况下,系统自动记录的日志有错误日志和访问日志,记录的文件名分别为error.1og和access.1og,除了错误日志以外的日志均称为访问日志。Apache 2.2版的扩展日志文件格式定义及示例如表1所示:

3 推荐技术

通常,个性化推荐系统分为基于规则过滤、基于内容过滤、基于协作过滤的方法以及这三种方法混合的具有智能性的推荐方法。基于规则过滤方法的特点在于采用关联规则、回归算法,找到用户对相关联对象之间的兴趣度、发现用户偏好,预测用户未来行为。基于内容的过滤推荐技术特点是,根据用户过去选择对象的特点,从对象描述、终端数据库里的对象属性关联抽取其特征,系统为其推荐相似的对象。基于内容的过滤系统最大的缺点是用户模型的建立过度依赖于用户以前选择和点击的具体对象。协作过滤推荐系统寻找与目标顾客历史吻合的顾客群组(称为近邻),利用了用户的相似性进行推荐。这些方法的基本模型如图1所示:

通常情况下,系统采用单一的推荐模型,例如,基于规则过滤的推荐系统,在离线学习阶段、数据预处理阶段需要做的工作是:应用程序在系统空闲时间段完成原始日志数据从日志文件或者日志数据库抽取,并进行清洗、转换、加载转换工作,清洗后并规范化的日志加载到日志仓库以备数据挖掘算法使用。在生成模型阶段,根据基于规则过滤采用的算法,比如关联规则使用的Apriori经典算法进行频繁模式分析,生成用户模型,根据挖掘算法计算生成用户特征组成的规则模型库。在在线推荐阶段,Web个性化推荐系统提取出当前用户的特征,查找规则模型库对应的匹配规则,根据计算结果检索当前可推荐的对象,最后以可视化的方法呈现给Web个性化用户。

当前,个性化技术研究的热点是基于协作过滤推荐,该系统面临两个主要挑战:可扩展性和确保对用户推荐的质量。可扩展性是指个性化系统在用户数量增加的情况下,推荐系统能够正常工作而不影响个性化系统整体性能。保证推荐质量是赢得顾客信任的基本要素,缺乏用户信任的个性化应用注定失败。

4 智能混合过滤推荐

针对单一的基于内容过滤或者协作过滤推荐系统存在的缺点,当前研究的重点是采用混合两种或以上的推荐算法,目的是提高推荐的效率和精度;同时,已经有相关的理论研究。例如,Burke提出的方法是混合基于内容和协作过滤技术,旨在提高推荐的质量随;Ardissono等人采用多种异构推荐技术的方法,通过收集多种用户偏好的信息实现;Mobasher等人提出一种框架,把在线用户访问Web页面的会话活动过程与在线数据准备和数据挖掘任务分开处理,采用基于聚类的技术把Web站点使用和内容模型采用统一的表示方法,用于实时的个性化操作;这种方法的优点在于Web站点的使用和内容特点集成到Web挖掘框架里,为推荐引擎提供统一的访问方式,从而提高了个性化效率;Rosenthal等人提出的研究旨在提高推荐系统在线预测精度。

笔者经分析认为,基于规则过滤和基于协作过滤技术的缺点是:通常需要离线学习训练样本生成关联规则或者用户组的分类,二者具有可扩展性差和动态变化缓慢的特点,因此,不适于在线的迅速响应,尤其

不适合实时查询的响应。基于内容过滤技术的优点是响应及时,但其缺点是依赖于用户的历史操作记录,如果用户的兴趣偏好变化或者历史记录缺失,推荐给用户的结果将可能会产生严重的失真。

基于以上分析,本文结合以上三种推荐方法,提出一种Web个性化应用智能混合推荐模型,其优点是通过模型适配器智能性地、自动为推荐系统选择合适的挖掘模型,具有响应速度快、推荐准确性较高等特点(见图2)。该模型的数据收集、预处理过程采用的方法与传统的推荐类似,与原有系统兼容并且进行功能扩展。数据挖掘模型可以有多种,主要分为三种类型:基于关联规则的挖掘类型、基于内容的分类挖掘类型和基于协作的聚类挖掘类型。根据实际挖掘应用环境需要和企业规模的不同,该模型可以实现某一种挖掘类型的几种具体算法,也可以实现任意两种或者三种挖掘类型的任意种算法,因此,该模型能够使用于多种用途,具有较强的灵活性。此外,由于该模型可以实现某种挖掘类型的多种算法,因此,可以进行精度比较,提高推荐的精度。

这种方法与图1所示的个性化推荐系统模型相比较而言,除了具有单一的推荐功能外,具有以下几个特点:①混合采用的多种过滤推荐技术,能够根据系统应用情况和抽取到的用户特征自动识别用户需求,是一种智能型推荐系统;②这种智能型推荐系统采用多种过滤推荐技术,具体采用哪种过滤技术由模型适配器根据用户特征和推荐内容的不同而决定;③本系统能够完成多种过滤技术的推荐。例如,一个商务网站的个性化注册用户完成交易之后,Web个性化推荐系统提取该用户的访问特征,并进行分析,为用户的个性化推荐做准备。模型适配器分析该用户当期的购物内容,使用关联规则挖掘模型发现用户的购物内容并推荐与此相关的内容,推荐可能关联的商品。使用内容过滤模型发现用户当前对哪些商品感兴趣,从而推荐更多用户可能会感兴趣的商品;使用协作过滤模型找到与该用户有相似购物内容的用户还买了哪些商品,根据用户的相似性推荐当前用户还没有发现是或者还没有购买的商品。模型适配器根据挖掘结果,可以把推荐内容呈现给用户账号页面,或者是推送到用户使用的电子邮箱。这些复杂的工作都由适配器自动识别并操作完成。

归纳本文提出的智能混合推荐系统模型特点如下:①自动适配功能,提供一种数据挖掘算法模型的接口,这种接口能够自动适配推荐技术,实现在线推荐;②灵活性强,可以根据实际需要加载、更换数据挖掘模型;③通用性强,不但可以用于个性化推荐,还可以用于决策支持系统(Decision Supporting System,DSS)、专家系统(Expert System,Es)商业智能系统(Business In.telligence,BI)等。

5 结语

在未来几年的个性化研究中,其关键技术依然是推荐系统。个性化推荐基于Web挖掘理论和技术而不断发展,涉及到数据挖掘、人工智能、机器学习等多个领域的理论。随着Web技术和普适计算的发展,个性化推荐系统采用的挖掘技术越来越复杂,由单一技术向混合技术和智能型方向发展。

个性化推荐进行数据挖掘需要的数据源越来越多样化,综合了日志数据、历史交易记录、用户搜藏、用户注册信息、个人评价反馈信息等。当前,关于Web日志格式的设计原则,还缺乏相关的理论研究,因此,可以考虑进行Web日志格式设计的研究。一些研究者为了提高个性化推荐系统的精度,把研究重点放在提高推荐系统的算法优化方面,但是,有针对性地定制收集用户数据进行用户模型建模,对于个性化推荐系统精度的提高有着根本性的促进作用。这些定制收集到的用户数据能准确地反映出用户的偏好,并且,用户模型建模收集到的数据越准确,就越有利于推荐系统的精度提高。同时,经过定制收集到的数据还能够有助于减轻推荐系统计算冗余数据的负载,从而提高个性化系统整体性能。

参考文献:

[1]Mobasher B.Data mining for Web personalization.[2010―12―11].#other.

[6]Billsus D,Pazzani M.A personal news agent that talks,learns andexplains.[2010一12―11]..

[7]Han J,Kamber M.数据挖掘概念与技术.范明,孟小峰,译.北 京:机械工业出版社,2006.

[8]Burke R.Hybrid Web recommender systems//Brusilovsky P,Kob-sa A,Nejdl W.The Adaptive Web:Methods and Strategies 0fWeb Personalization,Lecture Notes in Computer Science.Berlin:Springer―Verlag,2007:377―408.

[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and recom-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.