找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 768|回复: 3

关于蜘蛛技术的分享,对数据库优化很大

[复制链接]
发表于 2011-8-1 16:49:23 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
目前我们在蜘蛛上的技术突破,给大家分享下,主要两点:
1是蜘蛛抓取时,自动放弃没有描述的页面,这可以秒杀列表页,大概节省数据库至少30%空间。
2是蜘蛛抓取时,可以完全按照二级域名抓,比如我抓发米U盘,就不会像以前那样抓取友情链接到发米在线。

当然,这些小聪明,大家稍微修改下蜘蛛就可以完成了。但是这两个功能,是非常实用的!希望大家都做修改。

目前我们的全部收录,已经没有了列表页、400页面等无效页面。

但是还存在的问题有:
1、Sphinx写入了服务,还是会自动关闭。
2、数据库分表有谁解决了吗?

大家共享,PHPsou更强、更大!

发表于 2012-2-20 12:53:50 | 显示全部楼层
感谢楼主分享, 苏州白癜风医院,收藏了
发表于 2014-4-15 12:48:14 | 显示全部楼层
好帖要顶,楼主的头像还是不错滴
发表于 2014-6-16 15:31:57 | 显示全部楼层
强烈感谢楼主
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部快速回复上一主题下一主题返回列表找客服手机访问
快速回复 返回顶部 返回列表