本文操作环境:windows7系统、Java8.0&&HTML5版,DELL G3电脑
Java去掉html标签的各种姿势
业务开发中可能需要将html的标签全部去掉,本文将多种方法综合在这里,供大家参考。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
|
【推荐:java视频教程】
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
|
注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。
具体的jar包请自行到中央仓库里搜索依赖配置
https://search.maven.org/ 和 https://mvnrepository.com/
可以将资源路径的文本类型文件(如json/html)读取成字符串
1 2 3 4 5 6 7 8 9 10 11 12 |
|
这里提供了多种去除html标签的方式,建议先测试好再实际使用。
测试时读取资源文件可以使用第三节提供的工具类。
如果正则表达式无法满足你的需求,自己进一步优化即可。
如果其他方式仍然有特殊情况没有考虑到,可以自己先用正则去除这种特殊情况。
总之这里只是一种参考,提供了多种解决方案。