MySQL社区

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
查看: 2279|回复: 8
打印 上一主题 下一主题

[SQL类] 大量文本数据查找重复,效率很低,怎么办?

[复制链接]
跳转到指定楼层
1#
发表于 2015-7-15 23:11:14 | 显示全部楼层 回帖奖励 |倒序浏览 |阅读模式
我数据库中有两百多万的文章,现在想通过SQL查找到内容重复的数据。表名:db_news
字段:content
字段类型:mediumtext


我使用了:
select `content`
from db_news
where `content` in (select `content` from db_news group by `content` having count(1) >= 2)





速度简直让人奔溃。。。求高手指点

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏1 分享淘帖 顶 踩
2#
 楼主| 发表于 2015-7-16 20:25:49 | 显示全部楼层
kider 发表于 2015-7-16 11:12
试试这个:
select `content` from db_news group by md5(content) having count(1) >= 2;

利用md5,太强大了!效率提升几百倍。牛人!{:soso_e179:}
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|Archiver|手机版|MySQL社区 ( 京ICP备07012489号   
联系人:周生; 联系电话:13911732319

GMT+8, 2024-5-4 07:35 , Processed in 0.120078 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表