搜索引擎研究范例6篇

前言:中文期刊网精心挑选了搜索引擎研究范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

搜索引擎研究

搜索引擎研究范文1

1.1 SEO市场规模

根据SEMPO的北美搜索营销(SEM)市场规模数据发现,搜索营销市场主要由竞价排名、付费收录、自然排名优化和搜索营销技术四项业务构成。

2006年北美SEM市场的主体业务依然是竞价排名(Paid Placement,也称付费链接)业务,市场规模达80.64亿美元,占SEM市场总规模的85.9%.而自然排名优化(Organic SEO)业务规模达11.07亿美元,占SEM市场比重达11.8%。

艾瑞2009中国搜索引擎市场份额报告,中国搜索引擎营销市场规模达69.6亿元,占网络广告市场的33.6%。根据美国的数据10:1比例分析,在中国的自然排名优化(Organic SEO)市场规模约为6亿元左右。

1.2 SEO公司

自2003年SEO技术进入中国市场以来,经历了萌芽、初级发展阶段,逐步进入高速发展阶段,市场经过激烈竞争慢慢孵化出较有规模的自然排名优化服务公司,同时技术也在不断得到提升。

中国SEO市场表现最为活跃的城市有北京、上海、广州等地,并向其周边城市蔓延。中小型企业对SEO服务需求量增长加快,二级城市的小型网络公司也为客户提供了SEO基础业务。

更多技术型企业利用SEO技术结合产品研发,进行平台级运营,转换商业模式为个人用户、中小型企业提供服务。在互联网中能够生存的互联网公司都会掌握SEO的部分技术。

1.3 SEO从业人员素质

搜索引擎自然排名优化技术入门门槛较低,互联网又缺少新生代产品,越来越多的网络从业人员愿意加入到这个行业中来。不少网络型企业公司对SEOer需求逐步上升,对入门级SEO技术人员增加了就业岗位。

中国搜索引擎优化技术步入中国较晚,中高端平台运营级SEO人才资源也是比较稀缺,大部分大中型企业都会对SEO人员招聘放低要求。此类SEO人员掌握的不仅仅是单方面知识及运营技巧,更懂得SEO产品商业运用的实施。

不少SE O中高端人才能够细分行业深层次的理论研究,做好技术细节,专业化运营、整合营销,作为需要更高的职业研究方向,对工作要求的人员技术含量也在不断的提升。

2 SEO发展方向

2.1 前景

网民对搜索引擎搜索已经养成了习惯,渐渐的把搜索引擎做为互联网入口。不仅是娱乐、学习、商业行为等大部分人都是以搜索引擎为主找信息、查资料、寻产品。

搜索引擎创造了信息财富市场,企业利用网民的搜索习惯,通过搜索引擎SEO技术转换商业利润。搜索引擎市场份额的不断攀升,给了SEO市场很大的机会,更多企业得到SEM服务的同时,也会选择自然排名优化服务。在未来企业对搜索引擎精准营销的更为依赖,做为SEO方向发展的公司前景比较可观,正是市场所需。

2.2 市场

由于目前的SEO技术及商业模式不成熟,市场优胜劣汰的原则造就了大部分SEO网络公司成为了先驱。既然这个领域有市场,市场规模不断扩大。那么总会有人会运用好它,从中牟利,那么可以把分为以下几种:

第一种是,SEO公司为客户提供制定关键词自然搜索排名服务,站在产品角度来看不可复制的产品服务,缺陷的部分就是依赖第三方环境做为赢利点。不过在激烈的市场竞争中也有不少发展较有规模的企业。

第二种是,SEO替代产品市场,结合搜素引擎优化研发出平台级内容服务产品,比如像8684、58、赶集这样的平台,起步较晚但在通过内容服务的同时利用搜索引擎迅速做大的平台运营企业。

第三种就是网建市场将SEO这块纳入基础服务的产品化平台,主要针对服务客户群还是中小型企业,客户通过购买建站的同时获得SEO方面的服务,此类研发的平台有勤加缘、铭万、一呼百应等互联网企业。结合巨大的网建市场推出SEO增值服务,深受中小型企业青睐。

2.3 技术

未来的互联网不断发展优化技术同时也是,作为SEOER的个人能力针对网站优化主要表现在下面几个方面:

2.3.1 关键词排名优化

系统结构、链接交换、有效链接资源利用、代码优化、搜索引擎周边工具的应用。

2.3.2 关键词策略

所说的关键词策略,并不是针对某一群关键词策略化,而是针对互联网平台产品能够进行合理的资源配备,目前大型网络公司招的SEO人员的主要任务之一,也是一门值得研究的学问。

2.3.3 网站群应用

互联网平台产品网站群是SEO操作的一种应用方法,通常表现在细分行业、向周边行业延伸建立频道与外部网站加强链接合作,增强站内资源在搜索引擎效果更好,直接性搜索引擎流量增长的方法。

2.3.4 资源整合

资源整合不仅应用到企业战略调整的手段,也应用到平台SEO流量战略层面,进行优化资源配置增强平台的核心竞争力。战术层面上更是战略调整能做出发展有效的决策。

搜索引擎研究范文2

【关键词】网络;搜索引擎;翻译

中图分类号:H059

文献标识码:A

文章编号:1006-0278(2013)03-228-01

在信息技术和通信技术高速发展的今天,具有丰富资源的互联网已在人们生活和学习中产生了极大的影响并占据了重要地位。在海量的网络资源中查找相关的有用资源时,我们必须利用搜索引擎(search engine)。如何有效地利用互联网搜索引擎辅助翻译应成为业界研究的重要课题。

一、网络搜索引擎辅助翻译(ISEAT)的定义

计算机技术的不断发展让人们期待着能利用计算机辅助语言翻译,简称CAT。CAT经过多年发展,包含有语料库辅助翻译、电子词典辅助翻译、网络辅助翻译、软件辅助翻译等多种形式。ISEAT是CAT一种形式,通过利用搜索引擎为译者在海量的网络资源中快速寻找到适用的语句或语句成分,从而提高翻译的效率和准确性。在文章中,重点研究的是利用搜索引擎辅助词汇的翻译。

二、网络搜索引擎的种类和特点

搜索引擎主要可分为三种:全文搜索引擎,如Google、Ba-idu;目录索引类搜索引擎,如雅虎、搜狐、新浪、网易等;元搜索引擎;如Infospace、搜星搜索等。我们常用的搜索引擎为全文搜索引擎,其原理是通过机器手(即Spider程序)到各网站收集、存储信息,并建立在线索引数据库供用户查询。这些检索数据库规模大,信息丰富,搜录网页多,查询方便,更新快。以Google为例,其检索的各种语言网页数量达数百亿,涉及的范围非常广,如天文地理、历史文化、经济、科学等。其语料丰富并不断更新,因此,搜索引擎检索库能从理解文本、词语选择、检查校对等方面为译者提供极大帮助。ISEAT并不仅是单纯选用其中的语料,它还具备提供网络在线词典、百科全书、文本范本、查找专有名词、帮助译者熟悉翻译原文的背景知识等其他功能,下文中我们都将以“Google”为例来说明。

三、搜索引擎在翻译中的应用

(一)查找网络在线词典

词典是翻译过程中必不可少的工具。传统纸介质词典编撰耗时长,更新较慢,很难查到新近出现的词语及其用法。且使用者可随时查阅的词典种类并不多,当遇专业性词汇时往往无法及时解决。而网络在线词典容量大、更新快、使用方便,数量多,如进入google com,在搜索栏内输入“Chin-ese-English Dictionary”或“English-Chinese Dictionary”就会出现上万项符合要求的字典。输入不同的关键词,搜索结果会显示不同的内容。虽然上述字典良莠不齐,但也有很多优秀的字典如:当代汉英在线词典、韦氏在线词典等。当在翻译中遇到生僻词语时,可在其中找到对应的译文。

(二)查找专有名词和术语译法

尽管在线词典容量大,词新,但仍然缺少很多人名、地名、专有名词和术语等。网上的资源相当丰富,不论翻译的原文属于哪一学科,通过搜索引擎都可以在互联网上找到相关的网页或相对应的词库。而现在的网页多数都有中英文对照版本,这样就为查找姓名、地名、专有名词和术语的译文和原文提供了极大的方便。一般来说,常见的英文人名、地名已经有着一些约定俗成的译法。当我们不熟悉的人名出现时,我们可以查找搜索引擎翻译。将“Rococo”键入搜索栏,然后查找中文网页,便获得大量项匹配的网页,其中就有对“罗可可艺术”的中文介绍,在使用“罗可可”这个翻译的较权威学网站也很多。由此也可确定上述为恰当准确的译文。

(三)查找新词的译法

传统的工具书或百科全书有一定滞后性。互联网上的资源涵盖面全而新,所提供的信息几乎能满足我们对新词翻译或解释的所有需要。针对汉语英译,China daily网站上有一个专门的汉英对照新词词汇库(http//.cn/chinesetem.shm1),在那里我们可以查到大量新出现的中国特有的词汇或表达方式。除了上述的词库之外,我们还可以从中英文对照的网页上查找到所需资讯,如多数政府、公司、大学、正规出版物(如报纸、科技文献等)的网页都有中英文版本。

(四)查找或检验单词固定搭配或常用搭配

搜索引擎研究范文3

据艾瑞咨询数据显示,去年我国的搜索引擎市场规模达到109.8亿元,年同比增长57.7%,未来市场潜力巨大。展望中国搜索引擎市场发展趋势,桌面软件和搜索服务的结合将更加普遍,并且成为新进者迅速切入市场的突破点;垂直领域的优秀厂商通过合作或自主研发进入搜索市场可以预见;此外,微博的高速发展,使得实时搜索的发展具备想象空间。

纵观几大搜索引擎,百度连续推出了百度框计算,以及首页改版,仍旧围绕搜索引擎的核心“搜索”而不断推出各种衍生的新产品;谷歌创新不断,却总存在问题;搜狗、搜搜、有道等运营商也连续发力;以往链点点通为代表的集桌面管理、网址导航、网络应用和搜索引擎为一体的软件面板形式,顺应趋势发展后力无穷。

技术创新能够推动行业进步,而技术存在及发展的基础仍旧是用户。因此,创造一项崭新的技术,不如先创造一项用户的需求,只有在用户层面的创新,才能开创一个全新的搜索引擎时代。

搜索引擎研究范文4

[关键词]搜索引擎 评价指标体系 特点 发展

[分类号]G354.4

1 引言

据CNNIC第21次中国互联网调查报告数据显示,中国目前2.1亿网民中,经常使用搜索引擎的人数高达72.4%,他们日常生活信息有70%以上是通过网络获得的。

在信息爆炸的今天,互联网海量信息需要经过筛选进入人们的视野,从传播学角度讲,需要一个信息把关人的角色,将海量信息分类、汇总、准确地传输到需求者面前;从网络功能讲,没有任何互联网工具比搜索引擎更适合这个角色了。

有需求,自然就会产生市场。网络巨头纷纷把利润中心转向搜索引擎市场,除了google、baidu、yahoo!等专业搜索机构,甚至连sina、sohu等门户也开始介入搜索引擎领域,一时间,搜索引擎成为网络经营公司的重要产品。搜索引擎评价指标体系,为我们提供了一个了解、分辨、选择搜索引擎的学术标准,充分了解分析这个指标体系,是我们研究搜索引擎的首要条件。

2 评价指标体系分析

本部分主要对国内外几个核心学者的评价体系进行对比分析,并且结合若干篇较新的论文中的评价指标,讨论它们之间的区别和继承性,并总结当前搜索引擎评价指标体系研究的重点与不足。

2.1 Lancaster评价指标体系

1973年,美国学者Lancaster和Fayen曾列出6项衡量信息检索系统的评价指标:覆盖范围、查全率、查准率、响应时间、用户负担和检索结果输出格式。这是传统书目联机检索的评价指标,显然,他们当时无法考察目前复杂网络检索甚至搜索引擎的检索情况,但已经从技术以及用户需求方面给后来者们建立了一个基本框架,奠定了从技术和用户角度出发的搜索引擎评价指标体系发展方向,随后的许多评价体系都是按照这个脉络建立的。这个评价指标体系从检索源、检索效果、检索输出以及用户使用角度考虑了信息检索系统可能的评价点,并强调了检索输出格式的重要性,这与书目联机检索特点是分不开的。这套体系并未预料到若干年后网络条件下的检索源复杂度、检索技术多样性和用户要求,所提出的评价指标可以作为目前搜索引擎评价指标体系的基础评价指标。

2.2 Heting Chu、Marilyn Rosenthal评价指标体系

Heting Chu、Marilyn Rosenthal在对Alta Vista、Excite和LyCOS三个搜索引擎进行比较研究之后提出应该从标引、检索能力、检索效果、输出和用户负担方面评价搜索引擎。Alta Vista、Excite的特点使得研究者注意到了搜索引擎检索中标引水平和检索能力的重要作用。可以看出,搜索引擎评价指标体系的发展,是同搜索引擎技术的发展分不开的,随着搜索引擎检索能力的提高,其评价指标体系也开始逐步丰富扩展,直接针对核心新技术产生了相应的评价指标体系。

2.3 Bar-Ila评价指标体系

Bar-Ila提出应从数据库覆盖范围、查询响应时间、用户所需努力和检索效果来评估搜索引擎的性能。国外搜索引擎评价研究最主要的一个特点是强调“人性化”。因此,他们在确定评价指标的过程中,在充分强调检索效率重要性的同时,常常把用户负担放在第一位。与Lancaster评价指标、体系相比,这个指标体系没有本质的增加,但是将查全率以及查准率作为检索效果进行描述,是搜索引擎评价指标系统化思想的一个体现。

2.4 曾民族综合评价指标体系

1997年,国内学者曾民族在综合国内外搜索引擎评价研究成果的基础上,提出了以下6类评价指标:数据库规模和内容、索引方法、检索功能、检索结果、用户界面、查准率和响应时间。

这套评价指标,是在考察当时网络信息资源特点、网络查询工具、www查询引擎、网络自动检索技术和Internet搜索引擎实例,并总结已有国外搜索引擎评价研究成果的基础上提出的,是对当时研究领域与搜索相关的各项技术指标的整合,具有较高的理论覆盖度和理论价值。但是,因为目前没有搜索引擎可以做到集成最新索引、检索技术、用户服务,所以这套评价指标体系只能作为一个综合备选库,而实际对某些搜索引擎进行评价时,可以从这个指标库当中抽取需要的指标进行组合。

需要注意的是,曾民族对传统检索效果部分没有统一指明,而是在第六点的其他部分点出查准率和响应时间,是由其对目前网络条件下信息资源特点的分析所得出的。曾教授认为:“信息源分散、无序、更迭、消亡无法预测。信息源的无政府状态迫使人们更改相关性判断的概念和标准。用户无法判断网上有多少信息同自己需求有关,查全率等检索评价标准需要重新定义。”建立在目前网络信息源巨量化、分散、无序、不可预知的基础上,资源总量已经无法确定,所以查全率也就不得而知。笔者认为,面对全网络的搜索引擎检索,查全率之说固然不现实,但许多专业领域搜索引擎评价中,查全率也是一个非常重要且实际的指标,鉴于曾教授对整个网络资源进行评价指标体系设计,不考虑查全率也无可厚非,但对于具体的搜索引擎实例,查全率理应成为评价指标体系的一部分。

2.5 宛玲等提出的10种评价指标体系

宛玲等在《试析中文搜索引擎的评价标准》一文中,提出了10种中文搜索引擎的评价指标,分别是:收录信息范围、反馈的信息量及内容的准确性、反馈的查询结果错误率、报道与内容更新速度、检索性能、响应时间、检索界面友好性、精品推荐、与其他搜索引擎的友情链接、系统性能、点击率、附加功能等。

这套指标除包含数据库规模、检索性能、检索效果、用户界面等类型指标之外,还强调了精品推荐、与其他搜索引擎的友情链接、系统性能等与用户使用相关的方面,这是国内搜索引擎评价指标研究的一个提高,在领悟国外强调“人性化”的基础上,将用户使用体验列为搜索引擎评价的重要内容。

随着web使用技术的提高,web用户服务意识不断增强,其对搜索引擎的使用已经不简单局限在技术要求上,“人性化”要求也越来越多,精品推荐、友情链接等服务内容也开始出现,将其作为搜索引擎评价指标来研究具有很大的创新意义。就这篇论文的评价指标体系来说,似乎有过于强调用户体验的嫌疑,前几种评价指标没有进行很好的体系构建,过于松散和用户化。

2.6 韩圣龙关于查准率的改进

韩圣龙在《网络信息检索工具评价指标》一文讨论了网络信息环境下传统的信息检索评价指标体系遇到的困难,并在介绍“相关性范畴”和“命中记录查准率”概念后对查准率公式作了改进。查准率仍旧是搜索引擎评价指标体系

的核心,查准率的提高直接反映出搜索引擎的性能,仍旧是当今学者研究的热点。

文章结尾部分补充了对输出格式的灵活性、数据更新频率、链接的可靠性和用户界面友好程度4个方面的展望,也充分说明了当前学者对用户体验指标重视程度的提高。

2.7 刘伟成关于元搜索引擎评价的研究

刘伟成在《元搜索引擎性能评价体系研究》一文中提出关于元搜索引擎一些主要性能的评价指标。由于元搜索引擎不同于单个搜索引擎的特点,关注搜索范围和结果显示是元搜索引擎评价的一个重要方面。元搜索引擎缓解了web数据的增长对单个搜索引擎索引网络数据收集速度的影响,在覆盖率方面有着明显的优势,评价元搜索引擎的搜索指标,覆盖范围必不可少。从使用角度讲,元搜索引擎的搜索功能和效果特点不是非常突出,检索控制与提问功能则是需要注意的。此外,检索结果的输出及用户界面是元搜索引擎评价的另外一个重点,对比单个搜索引擎来说,由于元搜索引擎没有非常强的核心技术,其用户体验评价变得重要起来。

3 评价指标体系研究特点及发展

从以上7种评价指标体系的介绍不难看出,搜索引擎评价指标体系的发展是一个指标内容逐渐丰富、指标性质逐渐商业化的过程,见表1。

在众评价指标体系中,检索能力(查全率、查准率)、用户负担、检索结果都是作为核心指标出现的,是对搜索引擎基本功能的描述,代表了搜索引擎评价的最低要求。用户体验评价是近年来搜索引擎评价指标发展的一个特点,在搜索引擎功能发展到一定阶段的同时,能否使用户获得优良的使用体验,成为目前搜索引擎商业化成功与否的重要评价指标。

总体来说,我国搜索引擎评价指标体系的发展,建立在综合国外研究成果的基础之上,并结合了我国搜索引擎的现状是综合并呈一定体系的发展过程。一方面,沿用了国外评价指标发展重技术、重用户的特征,在体系建设具有全面、丰富的特点,形成了全面建设加专攻一面的发展格局;另一方面,显示了搜索引擎商业化发展对相关研究的影响。精品推荐、点击率、附加功能、链接可靠性等评价指标的出现,要求研究者们更需要注重用户体验层次上的商业效益。

就目前发展状况来看,评价指标体系已经较为成熟,但还存在以下问题:

3.1 技术主导

目前国内学者的研究,多数是从检索性能和效果方面重点建立指标评价体系。对搜索引擎检索功能的评价文章颇多,对检索效果方面也有更为深入的研究,而且日渐成熟。查全率、查准率是技术评价的核心,如何能使搜索引擎全面、准确地反馈网络信息资源,将是长盛不衰的主题。

检索功能的特点越来越突出,内容越来越丰富。从布尔检索、关键词判断到概念检索、上下文关键词的评价,反映了搜索引擎技术日臻成熟,其评价指标也越来越全面。但随着技术的发展,搜索引擎的未来不得而知,所以检索功能评价指标也有着很大的发展空间。

3.2 系统化研究

评价指标系统化、体系化是促进研究全面、健康发展的重要手段。搜索引擎的评价指标之间是存在联系的,是一个和谐、功能互补的整体,关注他们之间的联系要比关注评价点本身更有意义。

搜索引擎评价指标体系的建立,主要遵循了从覆盖范围到技术核心,由检索结果到用户体验的信息传递流程。在某个小范围的指标族当中,也有着很强的体系关系,研究这些体系关系,对于原有指标的修改、新指标的提出乃至整个指标体系的发展都有着重要的意义。

3.3 重视用户体验

国外搜索引擎评价研究最主要的一个特点是强调“人性化”。在确定评价指标的过程中,充分强调检索效率重要性的同时,常常把用户负担放在第一位。

随着用户服务意识的提高,关注用户负担已经远远不能满足用户使用搜索引擎的需求,还需要增加用户体验。

3.4 品牌评价有待提高

笔者认为,在建立现阶段搜索引擎评价指标体系的同时,不妨引入“品牌”概念。在经济高速发展的今天,搜索引擎已经不单单是一项技术研究,更是一款有着广大用户知名度的产品,“品牌忠诚度”、“品牌美誉度”完全可以成为搜索引擎评价指标体系的借鉴,毕竟,衡量搜索引擎产品的好坏,用户的评价才最关键。

品牌对于一个网络产品的作用是不言而喻的。首先,品牌能够帮助搜索引擎吸引用户和保留用户,用户的使用和回馈又成为搜索引擎品牌积累的成本;其次,品牌效应能够使搜索引擎的地位得到提升,这已经不是搜索功能能够做到的了,一个好的搜索引擎的成长,不仅需要具备良好的搜索功能,更需要强势的业界地位,良性的压力才能促进其发展;再次,品牌是搜索引擎产品覆盖率的象征,随着社会经济化、产业化的发展,品牌的效用会越来越突出,一个成功的、强势的品牌也将成为搜索引擎评价的一项重要指标。

4 小结

技术、用户是计算机技术产品市场化始终需要面对的两个问题。搜索引擎的发展,是从用户需要开始的,经历了长时间的技术研究,并最终实现搜索引擎产品,得到市场推广,接着,由推广效果得到改进意见,进而优化产品,再推广。在这个过程中,搜索业界的学者开始对搜索引擎评价研究,目的是给搜索引擎的发展提供一套系统化、科学化的参考意见。

搜索引擎研究范文5

关键词 计算机 搜索引擎 智能化 技术

中图分类号:TP3 文献标识码:A

0前言

搜索引擎也可被称作一种程序,通过对用户提供的关键词进行计算、分类、搜索、返回,达到向用户推送需要信息的操作。但搜索引擎会因为数据库信息庞大、语言信息复杂、SEO作弊优化等情况降低搜索效率及准确性,所以搜索引擎加入智能化技术势在必行。

1计算机搜索引擎计术

1.1搜索引擎原理

计算机搜索引擎的来源是根据数据库内相关内容的搜索操作发展而成,目前的搜索引擎已经不再局限于数据库内相关内容的搜索,发展到针对互联网搜索的操作。

搜索引擎技术种类繁多,我们常用的有综合门户类(百度、谷歌类)和链接评价类。无论哪种技术都是用户通过对关键词的设定在搜索互联网数据库中进行搜索,并能搜索到准确或备用信息返回给用户。

这种搜索是利用SPIDER蜘蛛在互联网内各种开放性信息之间进行搜索,我们称之为SPIDER蜘蛛机器人。蜘蛛爬行搜索是根据提供的关键词,起始一个URL列表,利用链接形式进行整个互联网的搜索,有的网站在ROBOTS文件中设置禁止蜘蛛爬行,这不属于公开信息类,所以蜘蛛在搜索过程中将此类网站排除。直至URL列表为空或数据库磁盘已满,搜索终止。

1.2搜索引擎的障碍

搜索引擎目前具有一定的局限性,由于信息分类不够准确、信息排序能力不强或信息更新速度慢、信息评价无作用等情况阻碍了搜索引擎的发展。

信息分类不够准确,因为在对信息建立时便不能准确处理,信息内容复杂,类别自然多样化。当关键词出现的概率和信息类别、信息内容处理不平衡时,导致信息分类不准确。

人们现在所使用的搜索引擎,实际上为准确排序做了优化工作。但由于SEO优化过程中很容易投机取巧、进入极端优化,导致搜索引擎在排序方面出现错误。某些网站在做SEO优化时采用作弊行为优化排名,这种行为在搜索引擎中很难被发现,所以会出现作弊网站的排名至前。众所周之,互联网的信息量巨大,为我们提供很好的生活帮助,但也是由于信息量过大,导致一些信息更新不及时,经常会发生一些信息不能跟进实时搜索或者信息搜索位置不变等情况。

搜索引擎的障碍还体现于搜索引擎中收录的信息评价能力弱,举例说明,网站上设置多个关键词,基本类似,这样可以增加搜索引擎的收录和排名,但这种收录情况对用户基本没有用处。目前计算机搜索引擎还未能对信息进行客观评价,从而筛选出关键词和信息内容相匹配的信息。

2搜索引擎智能化技术分析

当计算机搜索引擎发现诸多障碍时,人们必须及时解决这些障碍。计算机搜索引擎融入智能化技术后,从原有的基础算法更新到智能知识层面的算法,实现与用户之间自然语言的智能搜索。

2.1智能搜索引擎的特点

2.1.1智能属性

融入智能搜索引擎后蜘蛛爬行过程中将对信息进行自动索引并分析,对搜索结果更清楚准确,将更有价值的搜索内容存入到数据库中。

2.1.2主动属性

智能搜索引擎通过对用户的搜索,主动对用户进行分析,及时调整用户所用信息。

2.1.3交互属性

智能搜索引擎会通过语音识别技术将用户的语境进行分析,准确的把握用户和需求。

2.1.4个性化属性

智能搜索引擎能够让用户随意定制不同的起始页,或将常用网站或内容放至网站首页等。

2.2智能搜索引擎技术分析

通过上文描述,智能搜索引擎技术中包含两种技术,机器翻译与语义理解技术。机器翻译是将文字语言和计算机语言进行转换,功能特别适用于使用方言或外语进行搜索时,计算机会通过语言形式进行计算机语言的搜索,然后将搜索到的信息从计算机语言翻译到输入语言形式呈现给用户。语义理解是利用语音识别技术实现对语音的词语、声音、语调进行分析并准确理解。

计算机搜索引擎对语言识别能力已经非常准确,但加入智能化技术的搜索引擎会更加准确的把握关键词、短语和语境的理解技术。汉语分词技术、短语识别技术、同义词之间转换等都加强了计算机搜索的功能性。

3结论

目前很多搜索引擎已经融入了智能化技术,搜索引擎算法一直更新,使用云搜索处理技术为人们提供了更多样化的服务。智能化搜索引擎能够更准确、迅速的为用户提供信息,同时也可以排除网站在SEO优化方面的作弊情况,让网络信息更加优质。

参考文献

[1] 王伟.搜索引擎智能化技术中若干关键问题的研究与实现[D].河北:河北科技大学,2011.

[2] 许武权.基于Web文本信息的智能检索系统的设计与实现[D].北京:电子科技大学,2011.

[3] 郑文良.基于简单本体的农业P2P搜索引擎关键技术研究[D].沈阳:沈阳农业大学,2013.

搜索引擎研究范文6

关键词:搜索引擎; 分类; 类目

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)18-4174-03

目录型搜索引擎采用网站登录收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源[1]。

目前,中文分类搜索引擎正蓬勃发展,犹如雨后春笋般相继出现,但各家搜索引擎的分类目录多为自编,这些自编的分类类录或多或少的存在着问题,不能完全的满足用户的检索需求[2]。所以笔者认为,建立统一的分类类录体系势在必行。该文在研究多数分类搜索引擎的基础上,归结出分类类录的大致类别,以期为相关研究机构和人员提供参考。

1 样本来源及研究方法

1.1样本来源

本文选取的样本来自于中国网站排名(.cn)。中国网站排名由中国互联网协会主办,主要提供网站综合排名TOP榜、网站流量趋势、统计工具、互联网市场信息等业务。

本文主要研究的是搜索引擎的分类,所以选取的搜索引擎须满足两个条件:一是目录型搜索引擎;二是综合性门户网站。结合这两点,在网站排名TOP100中,剔除掉全文搜索型引擎(如, 、.hk、等),以及专项式搜索引擎,例如购物网站(、等),银行网站(如.cn类),视频网站(如 、等),游戏网站(、等),交友网站(、等)等等,选取11个具有代表性的目录式综合搜索引擎进行研究,分别是:腾讯网()、新浪网(.cn)、凤凰网()、搜狐()、网易()、中华网()、新华网()、中国雅虎()、人民网(.cn)、北方网(.cn)、环球网()(表1)。

1.2研究方法

根据中国网站排名,选择具有代表性的11种目录式综合搜索引擎,收集并整理目录(表2),为方便统计,将同一意思的目录统一名称,例如,“购车”转换为“汽车”、“IT”转化为“科技”、“图库”转化为“图片”、“台湾”转化为“台海”、“尚品”转化为“时尚”、“地方站”简化为“地方”、“悬赏问答”简化为“问答”等等;统计搜索引擎类目,计算个类目的词频;按词频的高低进行排序;最后对词频表进行分析研究。

2 数据分析

将表2进行统计整理,总共获得105个不同类目,对每个类目出现次数进行统计,并将结果降序排列,得到类目的词频统计图(表3)。再将表3中的类目词频进行统计,获得高频词低频词统计表(表4)。

由表3可知,类目“汽车”、“新闻”、“科技”、“体育”、“娱乐”、“财经”、“房产”“旅游”是词频排名前三名的类目,说明它们是分类体系的主流类,目录型搜索引擎基本上都有着几大类;由表4可知,高词频(词频[≥]7)类目数很少,只占到总数的12.38%,相反,低频词(词频[≤]3)类目数却很多,占总数的76.19%,这显然是不合理的。

3 类目词频统计结果分析

3.1搜索引擎类目分类存在的问题

1) 分类类目数差距大

根据表1显示,搜狐的一级类目有34个,凤凰网和人民网的类目有32个,而环球网的类目只有19个,网易和北方网也只有21个,最大的差距有多大15个。类目数过多,分类过于庞杂、外延溢出,例如搜狐的“高考”属于“教育”的外延溢出,其完全可以并入“教育”类;类目数过少,知识覆盖不全,体系过于简单,查询者需要层层遍历,才能找到所需信息,浪费时间,例如想在环球网查找体育相关的信息,就必须同时查找“新闻”、“社会”、“评论”等类目,层层遍历,直到找到体育相关的信息。

2) 归类不科学,划分有失恰当

许多搜索引擎的分类体系未能严格的按照类目的内涵和外延进行科学地归属类目[3],其分类体系划分失误的种类主要有以下几种:①划分出来的类目相包容。例如,新浪网的“新浪大片”类目完全可以归纳在“视频”类目中,搜狐网的“彩票”类目可归纳在“财经”类目中;②划分过窄。例如,环球网的“历史”类目,内涵过窄,可以开辟一个“文化”大类,将“历史”这一类目作为它的二级类目;③划分过宽。例如,北方网的“文娱”类目,外延过于宽泛,可以拆分成“文化”和“娱乐”两个类目。

3)类目排列随意,界面欠友好

某些网站的界面友好层度比较低,广告太多,类目布局不合理,以及类目和二级类目混杂,版面混乱,给查询者的视觉效果不良[4];凤凰网的左侧右侧均插入了广告,并且随滚动条滚动,版面不够洁净,然让看了不舒服。例如,搜狐网的一级类目和二级类目混杂在一起,且字体大小一样,导致类目过多,看的人眼花。相反,新浪网设有网页导航,左侧边栏为一级目录,右侧为二级和三级目录,一目了然,分类清晰。

4)类名不规范,缺乏统一的类名体系

搜索引擎分类体系中普遍存在类名不统一的现象,各家搜索引擎同内涵和外延的类目却分别标示着不同的类目名称。例如,搜狐、人民网、北方网出现了“IT”这一类目,而腾讯、新浪、凤凰网、网易用的是“科技”这一类目;腾讯、新浪的“女性”类目和搜狐、网易、中华网的“女人”这一类目也是同属一个概念。

5)出现生僻类,类下缺乏注释

中文搜索引擎在其分类体系中采用了网页制作者自己自编的类目名称或是广大网名自发形成的网络用语、俗称、简称、英文缩写、惯称等自然语言[3],但有些类名缺乏规范化处理,类下有无注释,用户很难判别其内涵和外延,增加用户的额外负担。例如,搜狐的“白社会”、北方网的“18街”、中华网的“有料”、中国雅虎的“心香一脉”等,在没有注释的情况下,用户无从知道这些类目到底代表着什么样的内容[5]。

4 对搜索引擎类分类体系的思考

根据各类目出现的频次,将类目体系分为四类:主流类,次流类,商榷类,修改类(表5)。

4.1 主流类和次流类

主流类中的类目频次都是大于或等于7的,即它是由高频词组成的,这些类目是搜索引擎的主流类目,几乎所有的搜索引擎基本上都有这13个类目,在编制搜索引擎类目体系时,这13个类目可保留,直接使用;次流类是由类目频次小于7大于等于4的类目组成,这些类目是搜索引擎的基本类目,将近一半的搜索引擎都有这12个类目,对于这12个类目,可直接保留使用,也可稍作微调,例如,将“读书”归入“文化”类、“手机”纳入“数码”类、“微博”与“博客”合为一类,搜索引擎分类体系可根据自身情况借鉴使用。

4.2 商榷类

商榷类类目是由频次等于2和3的类目组成,这一类类目比较庞杂,界限不明确,需要调整后使用,分两种情况:

1)保留型,将其比较典型的类目,与其他类目外延交叉较低的类目保留下来,例如“亲子”、“女性”、“环保”、“问答”等;

2)调整型,将外延重叠交叉的类目进行调整,例如,“历史”纳入次流类的“文化”类,“动漫”归入“游戏”类,“彩票”纳入“财经”类,“女人”和“女性”合并为一类等。

4.3 修改类

修改类全部是由频次等于1的类目构成,对于这类类目,要进行大幅修改,才可以投入使用。修改方式有四种:

1)保留型,一些类目虽然不常使用,但也是属于一种新类别或是实用价值比较高的类目应予以保留,例如“男人”类目(因为有“女性”这一类目,为公平,应也有“男人”这一类目)导航(实用性很强);

2)包容型,一些类目的外延与其他类目交叉重叠了,所以不必要单独列出来,例如,“教育”已经包括“高考”这一类目,“新浪大片”包含在“视频”类目中,“华人佛教”属于“文化”范畴等等。

3)注释型,一些类目太过标新立异,仅看名字无法理解其内涵,不方便用户使用,因此,需要加以注释,例如,“白社会”、“节会”、“宽频”、“18街”、“有料”、“心香一脉”。

4)摒弃型,一些类目是完全不必要出现在一级类目中,需要直接舍弃掉,例如,“服饰”、“高尔夫”、“心理测试”等。

综上所述,一般性综合搜索引擎的一级类目应大致有:“新闻”、“财经”、“科技”、“体育”、“娱乐”、“教育”、“房产”、“汽车”、“旅游”、“论坛”、“视频”、“公益”、“健康”、“游戏”、“地方”、“博客”、“读书”、“邮箱”、“军事”、“文化”、“时尚”、“数码”、“图片”、“环保”、“女性”“问答”、“国际”、“男人”、“导航”这28个类目。在编制搜索引擎的类目体系时,考虑自身搜索引擎的特点、偏向,具体问题具体分析,借鉴使用。

参考文献:

[1] 罗德一.农业分类搜索引擎分类体系研究[D].南京:南京农业大学,2004:3.

[2] 刑志宇.分类搜索引擎探析[J].河南图书馆学刊,2006(10).

[3] 余义芳.中文搜索引擎分类体系存在的问题及对传统分类法的借鉴[J].图书与情报,2004(3).

上一篇工程培训

下一篇开学黑板报