井井客

搜索

正则匹配英文句子

正则在DW中的用处还是满大的,之前有过正则匹配网址,这次是来正则匹配英文句字,感觉很省时间,比自己一句一句删效率高多了。

正则匹配英文句子

切图切了三个星期,实现需要换一种心情了~!这次受网上几个jquery api网址的启发,想仿制一个文档,准备自用,方便以后查JQ使用。

不过中间遇到一个小小的问题,就是title里面的文字大部分都是英文句字(原作者就是英文写的),但是又因为部分title中的内容已经转成了中文,所以在匹配的时候需要注意一下。

列一下我使用的正则:

title="((?![\u2E80-\u9FFF\"]).)*" 

大致意思是不匹配中文以及引号,正则的详情在另一个文章中有写到:DW批量替换a标签链接修为#

事实上因为我一开始匹配英文总是会有漏的,有时候两句一样也会只匹配到一句,不清楚是神马情况,所以就换了一种思维。考虑到title里面除了英文句就是中文句,所以不匹配中文就是匹配英文啦。

这里\u2E80-\u9FFF是中文字符可能的范围。下面是百度的字符范围表,可能以后会用到

字符unicode码 说明
2E80~33FFh 中日韩符号区。
收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,
中日韩的符号、标点、带圈或带括符文数字、月份,
以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh 中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh 中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh 彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh 韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh 中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh 文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

另外搜索了一下较为详细的中文汉字Unicode编码范围,仅供看看,我也没有考证

字符集 字数 Unicode编码
基本汉字 20902字 4E00-9FA5
基本汉字补充 38字 9FA6-9FCB
扩展A 6582字 3400-4DB5
扩展B 42711字 20000-2A6D6
扩展C 4149字 2A700-2B734
扩展D 222字 2B740-2B81D
康熙部首 214字 2F00-2FD5
部首扩展 115字 2E80-2EF3
兼容汉字 477字 F900-FAD9
兼容扩展 542字 2F800-2FA1D
PUA(GBK)部件 81字 E815-E86F
部件扩展 452字 E400-E5E8
PUA增补 207字 E600-E6CF
汉字笔画 36字 31C0-31E3
汉字结构 12字 2FF0-2FFB
汉语注音 22字 3105-3120
注音扩展 22字 31A0-31BA
? 1字 3007

文章TAG:DW

作者:井井客原创来源:原创
本文标题:正则匹配英文句子
本文链接:/c/08185.html

上一篇:一堆城市名按拼音首字母排序
下一篇:css3制作鼠标移上去放大的效果

文章分类

相关阅读

随便看看