您当前的位置:首页 > MySQL全文检索初探网站首页日记


正文阅读

MySQL全文检索初探

发布时间:2014-8-22 7:19 Friday编辑:张立荣

    本文目的

    最近有个项目需要对数据进行搜索功能。采用的LAMP技术开发,所以自然想到了MySQL的全文检索功能。现在将自己搜集的一些资料小结,作为备忘。

     

    MySQL引擎

    据目前查到的资料,只有MyISAM引擎支持全文检索(full text index),查询效率高。但是有局限,不支持事务和外键。

    Innodb支持事务和外键,但是不支持全文检索。所以,如果需要全文检索的数据,需要使用MyISAM引擎创建表。

     

    MySQL中文全文检索

    很遗憾,目前mysql不支持中文全文检索。目前有两种解决方案

    • 方案1:使用mysql中文检索插件,个人认为可控性较差,虽然使用方便,但是如果后期插件出现问题,比较难解决。优点就是前期工作量相对较小。
    • 方案2:中文分词+GB2312编码:通过分词将原文分隔开,然后转成GB2312的二进制文本形式(如一个字,4个字节A623,这样就可以搜索单个中文)。(转成GB2312编码是为了避免中英文混合搜索。mysql全文检索最小长度默认4(ft_min_word_len)个字,中文是4个汉字,英文是4个字母。对于中文,基本上都是2子词,所以设置ft_min_word_len2,但英文中,2字的单词一般没有什么特殊意义,如‘is’,‘do’等,所以为了兼顾中英文语法习惯,将中文适当‘变长’,也就是转成GB2312的可见形式编码
    • 方案3:中文分词,ft_min_word_len设置为2,调用'repair table your_table quick',修复索引。相比方案2,此方案较节省空间。对于主要使用中文的系统而言,此方案更佳。关于ft_min_word_len文章http://old.zhanglirong.cn/cxrs/34.html

关键字词:标签: mysql

发表评论:

您也可以直接填写QQ到下面的输入框中,点击获取用户资料实现自动调用您的QQ资料