百度网站改版页面地址url正则表达式怎么写

作者:淘博客 2022-04-17 浏览:260

导读: 搭建的十堰信息网断断续续更新两年,虽然实行免费发布机制,可能没有知名度吧,一直没有什么起色,但是坚持没有关站,这是值得表扬自己的地方。最近更新文章居然可以日收录,发布文章一般3小时内收录,也算是对站长坚持不辍的报答,于是想在细节上完善下,将部分目录别名化,对seo应该好处。但问题随之而来,原来的目录...

搭建的十堰信息网断断续续更新两年,虽然实行免费发布机制,可能没有知名度吧,一直没有什么起色,但是坚持没有关站,这是值得表扬自己的地方。最近更新文章居然可以日收录,发布文章一般3小时内收录,也算是对站长坚持不辍的报答,于是想在细节上完善下,将部分目录别名化,对seo应该好处。但问题随之而来,原来的目录url形如/zhaopin/gongren/s131_a0_m0_p1.html,别名化后形如/zhaopin/gongren/,百度已经收录大量旧索引页面,搜索来路点击找不到旧页面,导致提示大量404。

1d153612940870bc4635249f7a53b048.jpeg


看到百度站长后台可以使用“网站改版”工具进行处理,站长进行一番尝试,反复写正则表达式,建立了新旧url的对应关系。将各位站长最头疼的正则写法基本解决,顺便做个教程供大家参考:


一、网站改版前准备工作

1)首先您要将改版前的旧链接全部通过301跳转到改版后的新链接,并且这种跳转必须是一一对应的关系,不能出现多条旧链接跳转到一条新链接,或者一条旧链接在不同时间内跳转到不同新链接的情况。
2)如果改版后产生新的站点,无论是www主站点还是二级域名,都需要将新站点在百度搜索资源平台进行验证,以保证明您拥有该站点的管理权限。


二、网站改版工具注意事项

1)改版规则中的新旧链接一定要使用301的方式进行跳转。
2)建议您尽量使用站点改版和规则改版,会有比较短的处理周期,也缩短后续您反馈问题的追查用时。
3)百度搜索资源平台对改版规则的校验时间范围为0.5——2小时,改版生效时间范围为12——48小时,整体来看,您从提交改版规则到线上生效,最短12.5小时,最长50小时。
4)改版完成后不要立即清除跳转关系,保持跳转关系至少三个月,网站避免出现校验失败原因中的问题。

5)站点改版针对全站域名更换的改版方式,新旧网站url除站点名不同外其他地址信息均一致,否则改版校验失败.

6)规则改版使用正则表达式描述改版内容的改版方式

本站不是更换域名,那么采用规则改版。


三、正则表达式格式说明

以站点news.a.com改版到站点a.com/news为例:

改版前url地址为http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,

其对应的改版后url地址为http://a.com/news/09/1001/07/5KH8DE1F000120GR.html


步骤一:确定改版前链接中的可替换参数或者路径,得到其位置序号和类型。
改版前页url:

根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。

步骤二:根据可替换参数或路径的类型,得到改版后链接的表达形式。
使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。


步骤三:根据改版后url,以及可替换参数在步骤一中的位置序号,依次用${1},${2},……表示替换掉改版前url中的可替换参数或路径,得到改版后链接pattern形式。


至此,便得到了改版前后的规则:
http://news.a.com /(\d+)/(\d+)/(\d+)/(\w+).html
http://a.com/news/${1}/${2}/${3}/${4}.html

四、正则表达式写法示例(以十堰招聘栏目为例)

需求:旧目录页url  /zhaopin/gongren/s131_a0_m0_p1.html经改版不能访问,需要对应到新目录页url   /zhaopin/gongren/上。如果仅此一条不用大费周章,但是还有其他不少类似栏目,改起来就费劲,需要通过广泛的正则表达式进行匹配,使新旧url之间建立对应关系。下面开始分析正则表达式写法。


旧url:/zhaopin/gongren/s131_a0_m0_p1.html

正则写法:/(\w+)/(\w+)/(\w+).html

释义:(\w+)匹配含字母数字及下划线的字符串,zhaopin、gongren、s131_a0_m0_p1都可以匹配。


新url:/zhaopin/gongren/(注意不要后面的参数)

正则写法:/${1}/${2}/

释义:${1}表示引用上面第一个参数(\w+),即zhaopin字符串;${2}表示表示引用上面第二个参数(\w+),即gongren。/${1}/${2}/即引用/zhaopin/gongren/。


但根据站内页面分析,信息详情页的url是/zhaopin/shouhou/6737.html,使用/(\w+)/(\w+)/(\w+).html同样可以匹配,但信息详情页与目录页是不一样的,信息详情页百度收录页面可以正常访问,自然不需要将具体页面转到目录页上(而且是错误的),这样必须改写旧url规则,使之精准匹配到旧目录url上,而不匹配到信息详情页上。

再次分析旧url:/zhaopin/gongren/s131_a0_m0_p1.html

除了/zhaopin/gongren/,还包括s131_a0_m0_p1,后面字符串参数中s、a、m、p固定不变,变化的只是数字id,那么采用下面写法。

正则写法:/(\w+)/(\w+)/s(\d+)_a(\d+)_m(\d+)_p(\d+).html

释义:/(\w+)/(\w+)/匹配/zhaopin/gongren/;s(\d+)_a(\d+)_m(\d+)_p(\d+)精准匹配s131_a0_m0_p1,正则(\d+)表示匹配1位及1位以上数字。


最终可以提交百度改版的正则表达式写法:

旧url:/(\w+)/(\w+)/s(\d+)_a(\d+)_m(\d+)_p(\d+).html

新url:/${1}/${2}/


再按要求填写三对新旧url提交,验证通过。根据百度要求,网站新旧url之间还要完成301跳转,这是另外的知识点了。

以上“百度网站改版页面地址url正则表达式怎么写”供参考,不同的url写法是不一样的,但匹配规则基本一致,可以融会贯通。

转载请注明出处:淘博客,如有疑问,请联系(6677869)。
本文地址:https://www.taoboke.com/jishujiaocheng/48.html

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

咨询