在上一篇文章中,我们主要阐述了移动站点建设的一般过程,包括:域名选择,服务器选择,网站安全等。本文主要涉及《百度移动搜索建站优化白皮书》中的网站优化。
以下是内容详情:
3网站优化
3.1抓住友善
关于爬行的优先级,这里强调:
&拉迪奇;网站更新频率:经常更新高价值网站,优先抓取
&拉迪奇;受欢迎程度:具有良好用户体验,优先爬行的网站
&拉迪奇;质量门户:优质的站内链接,优先级爬行
&拉迪奇;抓取历史越好,抓取的优先级越高
&拉迪奇;服务器稳定,优先级爬行
&拉迪奇;安全地记录高质量的网站,优先抓取
平稳,稳定的抓取是网站获取搜索用户和搜索流量的重要先决条件,网站管理员可以通过本章理解影响抓取的关键因素。
3.1.1 URL规范
有关如何设置网站的URL,请参阅2.3.1中的URL设置规范。
3.1.1.1参数
在URL中放置参数有两个要点:
&拉迪奇;参数不能太复杂
&拉迪奇;不要使用无效参数,无效参数会导致页面识别问题,页面内容最终不会在搜索中显示
此外,许多网站管理员使用参数(搜索引擎和页面内容的无效参数)来计算网站访问行为。在这里,请理解,尽量不要使用这种形式的资源,例如:
https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3
或者:
http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2链路发现
3.1.2.1百度蜘蛛
许多网站管理员会问如何判断百度移动蜘蛛。这是一个推荐的方法:只需两步即可正确识别百度蜘蛛
查看UA
如果UA不对,您可以直接判断不是百度搜索的蜘蛛。已经公开宣布的UA是:
移动UA 1:
Mozilla/5.0(Linux; u; Android 4.2.2; zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)版本/5.1 Mobile Safari/10600.6.3(兼容; Baiduspider/2.0; +http://www.baidu.com/Search/spider.html)
移动UA 2:
Mozilla/5.0(iPhone; CPU iPhone OS 9_1喜欢Mac OS X)AppleWebKit/601.1.46(KHTML,类似Gecko)版本/9.0 Mobile/13B143Safari/601.1
(兼容; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA 1:
Mozilla/5.0(兼容; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC UA 2:
Mozilla/5.0(兼容; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
检查IP
网站管理员可以使用DNS检查IP以确定蜘蛛是否来自百度搜索引擎。根据平台的不同验证方法,Linux/Windows/OS下的验证方法如下:
在Linux平台上,您可以使用hostip命令来反转IP以确定它是否来自百度蜘蛛。百度蜘蛛的主机名以* .baidu.com格式命名,non.baidu.com以冒充方式命名。
在这里我们需要说明一点,建议使用DNS更改为8.8.8。 nslookup反向解析后8,否则很容易没有返回或返回错误。
在Windows平台上,您可以使用nslookup ip命令反转IP以确定它是否来自百度蜘蛛。打开命令处理器并输入nslookup xxx.xxx.xxx.xxx(IP地址)来解析IP以确定它是否来自百度蜘蛛。百度蜘蛛的主机名以* .baidu.com格式命名,而不是* .baidu。 Com是模仿的。
在Mac OS平台上,网站可以使用dig命令反转IP以确定它是否被百度蜘蛛抓取。打开命令处理器并输入dig xxx.xxx.xxx.xxx(IP地址)来解析IP以确定它是否来自百度蜘蛛。百度蜘蛛的主机名以* .baidu.com格式命名,而不是* .baidu .com冒充。
3.1.2.2链接提交
链接提交工具是网站主动将数据推送到百度搜索的工具。使用链接提交可以缩短搜寻器发现网站的链接时间。目前,链接提交工具支持四种提交方式:
&拉迪奇;主动推送:这是最快的提交方式。建议以这种方式立即将网站的新输出链接发送给百度,以确保百度可以及时抓取新链接。
&拉迪奇;站点地图:站点可以定期将站点链接放入站点地图,并将站点地图提交给百度。百度会定期抓取提交的Sitemap并处理链接,但抓取速度比主动推送速度慢。
&拉迪奇;手动提交:如果您不想通过该程序提交,可以通过这种方式手动提交到百度的链接。
&拉迪奇;自动推送:它是一个轻量级链接提交组件,它将自动推送的JS代码放在站点的每个页面源代码中。访问页面时,页面链接会自动推送到百度,这有利于新页面更快。百度发现。
简单地说:建议有一个新闻属性网站,使用主动推送数据提交;新的验证平台网站,或无内容时间要求的网站,您可以使用Sitemap使用Sitemap提交网站的全部内容;技术能力薄弱,或网站内容较少网站可以使用人工提交方式提交;最后,插件方法可用于自动向百度提交数据
。3.1.3网络爬行
3.1.3.1访问速度
关于移动页面的访问速度,百度搜索资源平台于2017年10月推出了闪电算法,为页面主页的开放速度提供了战略支持。闪电算法指出移动搜索页面的第一个屏幕加载时间将影响搜索排名。如果移动网页的第一页在2秒内加载,则移动页面将接收升级的页面评估优惠处理,并且流量将被倾斜。与此同时,移动搜索页面加载的网页速度非常慢(3秒及以上)将被禁止。
对于页面访问速度的速度,这里有一些建议:
资源加载:
&拉迪奇;压缩和合并服务器端相同类型的资源,减少网络请求和资源量。
&拉迪奇;请参阅通用资源以充分利用浏览器缓存。
&拉迪奇;使用CDN加速将用户请求定向到最合适的缓存服务器。
&拉迪奇;非首屏图像类加载,将网络带宽留给第一个屏幕请求。
页面渲染:
&拉迪奇;在头样式表中编写CSS样式以减少由CSS文件网络请求引起的呈现阻塞。
&拉迪奇;将JavaScript放在文档的末尾,或者异步加载它以避免JS执行阻塞渲染。
&拉迪奇;指定非文本元素(如图像,视频)的宽度和高度,以避免重新绘制浏览器重新排列。
希望大多数网站管理员继续关注页面加载速度体验,具体取决于网站本身,参考优化页面的建议,或使用通用加速解决方案(如MIP)不断优化页面首屏加载时间。
了解MIP-Mobile网络加速器:《如何用MIP快速搭建体验友好的移动页面》
3.1.3.2返回代码
HTTP状态代码是一个3位代码,用于指示Web服务器的HTTP响应状态。在和平时期维护网站的过程中,网站管理员可能会在网站管理员工具后台抓取异常或服务器日志中看到各种响应状态代码。有些甚至可能影响网站的SEO效果,如突出显示网页404.设置,百度搜索资源平台(原百度网站管理员平台)一些工具如死链提交,网站需要在死链后提交内容,这里的要求必须是404.
以下是一些常见的HTTP状态代码:
301 :(永久移动)请求的网页已永久移动到新位置。当服务器返回此响应时(作为对GET或HEAD请求的响应),请求者将自动重定向到新位置。
302:(临时移动)服务器当前正在响应来自不同位置的网页的请求,但请求者应该继续使用原始位置以用于将来的请求。此代码类似于响应GET和HEAD请求的301代码,并自动将请求者重定向到其他位置。
这里强调了301和302之间的区别:
301/302之间的主要区别在于:此资源是否存在/有效
301表示资源仍然存在,只是更改位置并返回新位置的内容。
302表示资源暂时无效,并返回临时替换页面(例如镜像资源,主页,404页面)。请注意,如果永久失败,则应使用404。
有时,网站管理员认为百度对302不友好,并且可能滥用302来处理仍然有效的资源。
400 :(错误请求)服务器不理解请求的语法。
403 :(禁止)服务器已理解该请求但拒绝执行它。
404 :(未找到)服务器找不到请求的网页。
我必须在这里提到许多网站管理员想要自定义404页面,并且需要确保蜘蛛返回404的状态代码。如果404页面设置不正确并返回200状态代码,则很容易被搜索到搜索引擎。我认为网站上有很多重复的页面,这会影响网站评估。
500 :(服务器内错误)服务器遇到错误,无法完成请求。
502 :(错误网关)服务器从上游服务器收到无效响应作为网关或代理。
503 :(服务不可用)服务器当前不可用(由于过载或停机维护)。通常,这只是一个临时状态。
504 :(网关超时)服务器充当网关或代理,不及时接收来自上游服务器的请求。
3.1.3.3机器人
有关使用机器人工具的详细说明。有关详细信息,请参阅4.3.4机器人工具章节。对于机器人的使用,只强调以下两点:
&拉迪奇;百度蜘蛛目前不支持中文机器人,因此网站机器人文件不建议使用中文字符
&拉迪奇;机器人文件支持UrlEncode编码,例如http://www.test.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88 /%E7%94%9F%E6% AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97
死链和死链的标准是什么
该页面无效。无法向用户提供任何有价值信息的页面是一个死链接。有3种常见的死链形式。协议死链和内容死链是两种常见形式。此外,还有跳跃。链。
&拉迪奇;协议死链接:页面的TCP协议状态/HTTP协议状态清楚地表明死链,常见的如404,403,503状态。
&拉迪奇;内容死链:服务器返回状态正常,但内容已更改为与原始内容无关的不存在,已删除或必需的信息页面。
&拉迪奇;跳死链:指页面内容已过期,跳转到错误页面,主页等行为。
3.1.4访问稳定性
关于访问稳定性有几点需要注意:
DNS解析
DNS是域名解析服务器。关于DNS,建议中国网站尽可能使用大型国内服务提供商提供的DNS服务,以确保网站的稳定解决。
共享DNS稳定性的示例:
搜索资源平台已收到多个网站管理员的反馈,称该网站从百度网络搜索中消失,该网站发现该网站数据为零。
追查后,这些网站全部使用国外品牌DNS服务器* .DOMAINCONTROL.COM,这一系列DNS服务器存在稳定性问题,百度蜘蛛经常无法解析IP,在百度蜘蛛看来,该网站是一个死网站。以前,发现太多小型DNS服务提供商阻止百度蜘蛛解析请求或外国DNS服务器不稳定。因此,此处建议使用该网站,并仔细选择DNS服务。
蜘蛛禁令
禁止爬行动物将导致爬行动物认为该网站无法访问,并采取相应措施。爬行动物禁令有两种,一种是传统的机器人禁令,另一种是需要技术人员合作的知识产权禁令和UA禁令;在大多数情况下,禁令是由一些不正确的操作引起的,然后搜索引擎的反应是爬虫无法正常访问它。因此,爬行动物禁令的操作必须谨慎,即使临时禁止进入压力,也应尽快恢复。
服务器负载
除了服务器硬件问题(不可避免)之外,绝大多数服务器过载都是由软件程序引起的,例如程序中的内存泄漏,程序核心以及不合理的混合服务(其中一个消耗过多的服务器资源)增加了服务器负载影响服务器对爬虫访问请求的响应。)注意服务器对提供服务的机器的负载,留下足够的缓冲区以确保服务器具有一定的承受压力的能力。
其他人为因素
经常可以看到由人为错误引起的异常访问的情况。对于这种情况,需要严格的制度约束,不同的地点是不同的。您需要确保每次升级或操作都是准确的。
3.1.5总无障碍链接
3.1.5.1资源是详尽的
一般来说,网站的内容页面是详尽的,数万,数百万甚至数十亿,但它必须是详尽无遗的。实际上,有这样的网站。当爬虫爬行并提取这些网站时,它们将陷入“链接黑洞”;一般来说,网站提供给抓取工具的链接取之不尽,用之不竭;某些网站的搜索结果页面不同。不同锚点下查询的查询链接导致“链接黑洞”的生成,因此严禁将URL生成与用户的访问行为或搜索术语绑定。
3.2页面分析
页面解析主要是指蜘蛛抓取网站页面,分析和识别页面,称为页面解析。页面分析对于网站非常重要。抓取网站内容是网站发现的第一步。页面分析是被识别的网站内容的重要部分。页面分析效果直接影响搜索引擎对网站的评估。
3.2.1页面元素
3.2.1.1页面标题
关于网页标题,百度搜索于2017年9月推出了微风算法,重点打击网站标题,引导用户点击并破坏用户体验行为; breeze算法侧重于以下类型的标题作弊:
&拉迪奇;文字不正确,网站标题和文字有明显的不符合,误导搜索用户点击,对搜索用户造成损害
&拉迪奇;很多堆积,网站标题中大量堆叠关键词的情况也非常不推荐
有关网站标题作弊的详细说明,请参阅搜索机构的官方网站《百度搜索内容质量白皮书——网页标题作弊详解》
关于网站TDK,有几种情况需要注意:('T'代表标题中的title元素,'D'代表标题中的description元素,'K'代表标题中的keywords元素,它只是指网站。标题,描述和摘要)
&拉迪奇;百度不承诺严格按标题和描述内容显示标题和摘要,特别是摘要,根据用户搜索的关键词自动匹配显示相应的摘要内容,以便用户了解主要内容。网页并影响用户的行为决策。 。
&拉迪奇;网站管理员会发现同一链接的摘要在不同的关键字下发生变化,可能无法完全满足网站管理员的期望。特别是,当网站管理员在搜索框中执行网站语法操作时,摘要可能会更糟。但请不要担心,毕竟大多数普通网民都不会这样做。在这种情况下不符合预期的摘要并不意味着该网站受到惩罚。
&拉迪奇;还有一种情况是网页中的HTML代码不正确,导致百度无法解析摘要,所以有时您会看到某些结果的摘要是乱码(当然这很少见),所以请付费注意代码规范。
3.2.1.2主题内容
主要内容注意两点,一个主题太长(通常网页源的长度不能超过128k),文章可能太长而导致爬行和截断;另一个是要注意内容不能短,而短内容将被判断为无。价值内容。
以下是两个例子:
主题内容太长的示例分析:
网站的主要内容由JS生成。它未针对用户访问进行优化。但是,该网站针对爬虫爬行进行了优化,图像通过base64编码直接发送到百度。但是,优化后,百度不会显示内容。 p>
页面质量非常好,而且还针对爬虫进行了优化,为什么内容无法在百度搜索中出现
分析主要有以下几个原因:
&拉迪奇;用于爬虫爬行的网站优化是将图像base64直接编码为HTML,导致页面长度较长,网站页面长度为164k;
&拉迪奇;网站优化后,主要内容放在最后,但图像放在前面;
&拉迪奇;爬网程序对内容进行爬网后,页面内容太长而无法截断,爬网部分无法识别主要内容,最终导致页面被视为简短而未编入索引。
这种情况提出了以下建议:
&拉迪奇;如果网站针对抓取工具抓取进行了优化,建议网站源代码长度在128k以内,不要太长
&拉迪奇;对于抓取器抓取优化,请将主要内容放在前面,以避免因抓取截断而导致内容抓取
内容简短的示例分析:
网站反馈网站的内容尚未编入索引。分析发现网站抓取没有问题,但抓取的网页会提示您需要输入验证码才能查看所有网页。这些页面被判断为短页面。页面被抓取后,将被判定为垃圾邮件。
此外,当蜘蛛抓取网站并发现大区域是低价值短页面时,爬虫会认为网站的整体价值相对较低,然后后续抓取流量的分布会减少,从而导致该网站的目标。页面更新速度会变慢,爬网甚至构建索引库的速度会变慢。
为什么网站内容很短?其中一个原因是网站的内容尚未完全构建,尚未向公众开放,但蜘蛛已经发现了这一点。针对这种情况,建议在邀请测试阶段,机器人会阻止该网站。
此外,还会有一些网站设置用户查看权限。如果用户需要登录才能查看所有内容,则此类行为对搜索引擎非常不友好。蜘蛛无法模拟用户登录。他们只能抓取网站的显示页面,这可能会导致捕获。采取页面短的现象。
在这里,不要让爬虫用劣质标签绘制网站,这将对网站产生不良影响。此外,移动端的许多H5页面都由JS加载。实际上,生成短空间更容易。请关注网站管理员。
3.2.1.3网页发布时间
关于网页发布的时间,有以下建议
&拉迪奇;网页内容应尽可能长,严格按内容发布时间;而且时间应该尽可能充分。时间格式为年 - 月 - 日:分钟:秒
示例:2017-08-12 10: 23: 06
&拉迪奇;避免在网页上添加时间,这很容易造成页面时间提取问题,或者搜索引擎判断提取时间不可信,从而减少了网页的显示
3.2.1.4规范标签
规范标签的目的
在PC互联网时代,规范标签的作用主要是解决由URL形式的相同内容引起的内容重复问题。在移动时代,通过百度搜索赋予规范标签更多意义。在原始角色的基础上,它在移动页面和相同内容的PC页面之间的关联中发挥了作用;使移动资源更容易继承PC资源。各种功能可快速移动移动网络数据。
如何设置规范标签
将rel='canonical'添加到HTML代码的头部。您不能添加多个,否则搜索引擎会将其视为无效的规范标记。另请注意,href中的地址不能是死链接,错误页面或已被机器人阻止的页面。
具体例子如下:
3.2.2登陆页面体验
为了提高移动搜索的整体用户体验,提高搜索满意度,百度搜索于2017年推出《百度移动搜索落地页体验白皮书——广告篇2.0》(以下简称广告白皮书)。广告白皮书对广告内容,广告位置,移动登陆页面的大小等,以充分保证搜索用户的浏览体验。
有关白皮书的详细信息,请参阅《百度移动搜索落地页体验白皮书——广告篇2.0》
3.3页面值
3.3.1内容价值
原始文章需要独立创作,没有扭曲,篡改他人的创作或剽窃,以及其他人创作的抄袭。有足够的评论,补充等,以适应,注释和安排他人创作的作品。获得信息。
建议原文明确标明标题为“来源:xxxx(网站名称)”或“原创”,如“原创”,转载文章明确说明“来源:xxxx(转载来源网站名称)”。如单词,不建议使用“旧”; admin”,“网站管理员”,“ldquo;昵称”等模糊陈述。
3.3.2外链构造
通常认为外部链接是站点与第三方站点页面的链接点,这是该站点对第三方站点页面内容的认可和推荐。
当为外部链接构建站点时,建议具有真正的推荐意图并指向那些熟悉的,可识别的和与内容相关的外部页面;建议不要推荐与网站内容无关的外部链接。也不建议任意推荐外部链接,交换外部链接,并指向作弊站(这些可能被超链策略反向识别为垃圾作弊站点以进行抑制)。
最后,网站管理员应该及时发现并处理被黑网页。页面被黑客攻击后,通常会在页面上放入大量不相关甚至作弊的外部链接。目的是划分站点自身的重量,并改善外部目标站点的影响。建议网站管理员将死链提交到搜索资源平台(原始网站管理员平台),以便及时删除和屏蔽。如果未及时处理,将影响网站本身的重量。最好优化技术以改善站点安全障碍并防止它们发生。
3.3.3内部链构造
内链描述了网站的结构,一般起到页面内容组织和站点引导的作用;内链的重要意义在于通过链接点告诉搜索引擎哪个页面最重要。
当内部链组织时,所提出的结构清晰,不太麻烦,内部链组织的布局建议是一致的,这使得搜索引擎超链接分析更加友好。
与外部链类似,建议网站管理员擅长使用nofollow标签,这对搜索引擎友好,并且由于垃圾链接而避免了网站本身的重量。
3.3.4锚点
锚点描述:尽可能使用典型的真实锚点。锚描述应该与超链接页面的内容大致一致,以避免使用高频无意义的锚点。另外,同一URL的锚描述类型不应该太多,锚分布的稀疏程度越大,影响搜索排名。
3.1.3.4死链
当网站的死链数据累积过多并显示在搜索结果页面上时,会对网站自身的访问体验和用户转换产生负面影响。另一方面,百度检查死链的过程也会给网站带来额外的负担,影响网站其他正常页面的抓取和索引。
百度搜索资源平台推出了死链提交工具,帮助网站提交死链数据。