分类: SEO |
预览模式: 普通 | 列表

SEO知己知彼:中文分词

文章来源:donews
选摘部分,相信了解分词技术对SEO中文关键字策略有所帮助.



中文分词技术


查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1278

使用更好的元描述来改善页面摘要

2008年1月8日 上午 10:50:00
发表者:Raj Krishnan, 页面摘要组
转载自
谷歌中文网站管理员博客
 
原文:
Improve snippets with a meta description makeover
发表于:2007 年 9 月 27 日,星期四,下午 6 时 46 分
页面摘要是我们为每个搜索结果显示的简短的文字预览。你的页面摘要的质量直接影响到你的网站被点击(即谷歌带给你的流量)的可能性。我们使用了多种策略

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1188
  网站推广的方法很多,例如网站可以通过实施搜索引擎优化或购买关键词广告等方法来提高网站的访问量,但仅有访问量的增加对于业务的发展是远不够的,更加专业、深入的做法是让这些来到网站的潜在顾客进行购买,实现顾客转化,即提高网站用户转化率。网站需要做哪些工作来增加顾客转化呢?新竞争力网络营销管理顾问根据美国网站marketposition的相关内容综合编译为一个电子产品网络营销人员的自述:我如何如何提高网站用户转化率。
我进入电子商品零售网站goodguys.com的任务是通过业务拓展和营销策略为这个网站增加销售。我的老板告诉我这个网站需要做网站优化和PPC搜索引擎广告增加访问量,我说我们首先需要增加现有访问者的顾客转化率。
我所做的第一步是查看网站的整体设计和性能表现。我发现首页文件太大,既使宽带下打开网站也要几乎30秒的时间。我让设计团队将图片在不影响图片尺寸及显示质量的情况下将文件缩小;同时我交给开发团队一个任务:清理JavaScript和其它影响页面下载速度的代码。
优化代码之后,我的下一步是带领开发团队进行购物体验分析。这方面的改进主要是让购物、结算过程更加简单、方便。为此我请了一家专门做网站易用性优化(usability)的公司,根据他们提供的方案执行了主要的改进。
之后我请了一家经验丰富的搜索引擎营销公司为我们购买搜索引擎广告。我们在搜索引擎购买了一系列能够直接促成顾客转化的定位明确的关键词。
这些工作明显增加了网站的访问量和用户的信任,在此基础上,通过采取下面五项措施进一步提高网站用户的转化率。
提高网站客户转化率的措施之一:证明
让更多顾客购买,有一个看似非常简单、却被很多网站忽略的因素:社会证明。人们往往会因为其它人都购买了某商品而认为这个商品值得购买,因此网站上增加“热销商品”(Best Sellers) 或 "推荐商品"(Recommended Items),这为顾客节省了购买考虑的时间,同时,增加更多来自第三方的肯定性反馈,如顾客的反馈信息,奖励及赞誉,商品/服务评论,案例/成功故事等等。
提高网站客户转化率的措施之二:优惠

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1836

百度分词算法的进一步分析之三(转)

上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.

那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是<北京,华,烟云>,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成<北,京华烟云>,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出<北,京华烟云>.

这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是<山东,北,京华烟云>,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是<山,东北,京华烟云>,如果是正向切分应该是<山东,北京,华,烟云>,无论如何都分不出<山东,北,京华烟云>.这说明什么?说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出<山东,北>.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出<山东,北>的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.

我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为<天才,能量,级>,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?我们构造查询"铺陈晓东方",百度切分为<铺,陈晓东,方>,可以看出"陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为<山东,京城>,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为<陈晓东,京华烟云>,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗?构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是<陈晓东,方,不败>或者<陈晓东,方,不,败>如果是反向切分则是<陈,晓,东方不败>,可以看出百度的切分是<陈晓东,方,不败>或者<陈晓东,方,不,败>,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是<陈晓东,方,不,败>,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法.

重新归纳一下百度的分词系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1742

baidu分词算法分析之二(转)

Checker拼写检查错误提示(以及拼音提示功能)

拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.

  我们分析拼写检查系统关注以下几个问题:

  (1)系统如何判断用户的输入是有可能发生错误的查询呢?

  (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1693
  随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。 
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节.

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术.

我们分两个部分来讲述:查询处理/中文分词.

一. 查询处理

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1839

搜索引擎如何索引收录网页 (转)

highdiy 发表在 五月 9, 2007 
对SEO(搜索引擎优化)而言,让网站内的页面能够及时、全面地被搜索引擎索引、收录应该说是首要的任务,这是实施其他SEO策略的最基本保证。——不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被Google收录了多少页面如几K甚至几十K等以证明SEO工作的成功。但客观地说,网页仅仅被搜索引擎索引、收录是没有太大的实际意义,往往只能沦为浩如烟海的Internet世界中的殉葬品,更重要的是如何让网页出现在针对特定搜索项的SERP(搜索结果页面)前几页。——许多人相信,让网站内尽可能多的页面被收录进搜索引擎索引数据库终归不是一件坏事,网页越多,暴光的机会也便越大,虽然最终效果如何存在疑问。
Anyway,如果在对网站实施SEO时将重点放在网页被索引、收录的速度与效率,当然也无可厚非,而要想实现这一点,需要我们对搜索引擎如何收录、索引网页的机制有所了解。下面我们以Google为例,介绍搜索引擎收录、索引网页的过程,希望能对朋友们有后助益。——对其他搜索引擎如Yahoo!、Live搜索及百度而言,尽管可能在具体细节上存在差别,不过,基本策略应该是类似的。
1、收集待索引网页的url
Internet上存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。
具体到Google而言,虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷耘,当然,名字本身并不重要——至少到目前为止,主流的看法是,在Google的robots中,的确存在着相当部分专门为真正的索引收录页页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧——它们的任务便是每天不停地扫描Internet,以发现并维护一个庞大的url列表供DeepBot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。——当然,这样似乎在效率上存在矛盾,有点不太可信。不过,我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备“排它性”,也即是说,位于Google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而DeepBot在索引、缓存页面时则不会出现类似的情况,即Google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。因此,有时候发现GoogleBot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url。 
FreshBot记录的信息包括网页的url、Time Stamp(网页创建或更新的时间戳),以及网页的Head信息(注:这一点存在争议,也有不少人相信FreshBot不会去读取目标网页信息的,而是将这部分工作交由DeepBot完成。不过,笔者倾向于前一种说法,因为在FreshBot向DeepBot提交的url列表中,会将网站设置禁止索引、收录的页面排除在外,以提高效率,而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的,不读取目标网页的head似乎是无法实现这一点的),如果网页不可访问,比如说网络中断或服务器故障,FreshBot则会记下该url并择机重试,但在该url可访问之前,不会将其加入向DeepBot提交的url列表。
总的来说,FreshBot对服务器带宽、资源的占用还是比较小的。最后,FreshBot对记录信息按不同的优先级进行分类,向DeepBot提交,根据优先级不同,主要有以下几种:
A:新建网页;

查看更多...

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1517
  页面永久性移走(301重定向)是一种非常重要的“自动转向”技术。

首先,给一个工具,是来检测服务器头信息的,简单来说就是看看你的站点的301是否成功了。不要小看这个301,如果被做成了302什么的,你的站可能就要让你欢喜让你忧了。

检测地址:http://www.seoconsultants.com/tools/headers.asp#results 



  301重定向可促进搜索引擎优化效果

查看更多...

Tags: 301重定向

分类:SEO | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2034