MySQL社区

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
查看: 2257|回复: 8
打印 上一主题 下一主题

[SQL类] 大量文本数据查找重复,效率很低,怎么办?

[复制链接]
跳转到指定楼层
1#
发表于 2015-7-15 23:11:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
我数据库中有两百多万的文章,现在想通过SQL查找到内容重复的数据。表名:db_news
字段:content
字段类型:mediumtext


我使用了:
select `content`
from db_news
where `content` in (select `content` from db_news group by `content` having count(1) >= 2)





速度简直让人奔溃。。。求高手指点

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏1 分享淘帖 顶 踩
推荐
发表于 2015-7-16 11:12:39 | 只看该作者
试试这个:
select `content` from db_news group by md5(content) having count(1) >= 2;

再不行就新建立个字段,专门放MD5值
还是关键列一定要有索引呀!

点评

牛人!!  发表于 2015-7-16 20:28
推荐
发表于 2015-7-16 10:48:03 | 只看该作者
这个没有实际的数据测试,也不好直接看出来效率,你先试试这个语句的效率如何吧

SELECT content FROM db_news a WHERE EXISTS(SELECT 0 FROM db_news b WHERE a.content = b.content AND a.id != b.id) GROUP BY content;

点评

谢谢~  发表于 2015-7-16 20:27
推荐
发表于 2015-7-16 09:52:59 | 只看该作者
select `content` from db_news group by `content` having count(1) >= 2;

这样不是和你的sql一个效果。没必要嵌套一层呀!!

点评

恩~是的。谢谢提醒~~  发表于 2015-7-16 20:27
推荐
发表于 2015-7-16 11:01:34 | 只看该作者
content不要忘了加上前置索引。
说的这儿,多说两句,mediumtext这样的字段根本不建议去group by? 不就是为了找出重复大于2条以上的数据嘛
6#
 楼主| 发表于 2015-7-16 20:25:49 | 只看该作者
kider 发表于 2015-7-16 11:12
试试这个:
select `content` from db_news group by md5(content) having count(1) >= 2;

利用md5,太强大了!效率提升几百倍。牛人!{:soso_e179:}
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|Archiver|手机版|MySQL社区 ( 京ICP备07012489号   
联系人:周生; 联系电话:13911732319

GMT+8, 2024-4-24 06:53 , Processed in 0.071447 second(s), 25 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表