裸奔的鸡蛋 发表于 2011-8-1 16:49:23

关于蜘蛛技术的分享,对数据库优化很大

目前我们在蜘蛛上的技术突破,给大家分享下,主要两点:
1是蜘蛛抓取时,自动放弃没有描述的页面,这可以秒杀列表页,大概节省数据库至少30%空间。
2是蜘蛛抓取时,可以完全按照二级域名抓,比如我抓发米U盘,就不会像以前那样抓取友情链接到发米在线。

当然,这些小聪明,大家稍微修改下蜘蛛就可以完成了。但是这两个功能,是非常实用的!希望大家都做修改。

目前我们的全部收录,已经没有了列表页、400页面等无效页面。

但是还存在的问题有:
1、Sphinx写入了服务,还是会自动关闭。
2、数据库分表有谁解决了吗?

大家共享,PHPsou更强、更大!

a139 发表于 2012-2-20 12:53:50

感谢楼主分享, 苏州白癜风医院,收藏了

公金9 发表于 2014-4-15 12:48:14

好帖要顶,楼主的头像还是不错滴http://forumimage.org/images/icon01.jpghttp://forumimage.org/images/icon02.jpghttp://forumimage.org/images/icon03.jpghttp://forumimage.org/images/icon04.jpghttp://forumimage.org/images/icon05.jpghttp://forumimage.org/images/icon06.jpghttp://forumimage.org/images/icon07.jpghttp://forumimage.org/images/icon08.jpghttp://forumimage.org/images/icon09.jpghttp://forumimage.org/images/icon10.jpghttp://forumimage.org/images/icon11.jpghttp://forumimage.org/images/icon12.jpghttp://forumimage.org/images/icon13.jpghttp://forumimage.org/images/icon14.jpghttp://forumimage.org/images/icon15.jpg

二淼巍邦 发表于 2014-6-16 15:31:57

强烈感谢楼主
页: [1]
查看完整版本: 关于蜘蛛技术的分享,对数据库优化很大