반응형
http://blog.acronym.co.kr/227
- private String getText(String content) {
- Pattern SCRIPTS = Pattern.compile("<(no)?script[^>]*>.*?</(no)?script>",Pattern.DOTALL);
- Pattern STYLE = Pattern.compile("<style[^>]*>.*</style>",Pattern.DOTALL);
- Pattern TAGS = Pattern.compile("<(\"[^\"]*\"|\'[^\']*\'|[^\'\">])*>");
- Pattern nTAGS = Pattern.compile("<\\w+\\s+[^<]*\\s*>");
- Pattern ENTITY_REFS = Pattern.compile("&[^;]+;");
- Pattern WHITESPACE = Pattern.compile("\\s\\s+");
- Matcher m;
- m = SCRIPTS.matcher(content);
- content = m.replaceAll("");
- m = STYLE.matcher(content);
- content = m.replaceAll("");
- m = TAGS.matcher(content);
- content = m.replaceAll("");
- m = ENTITY_REFS.matcher(content);
- content = m.replaceAll("");
- m = WHITESPACE.matcher(content);
- content = m.replaceAll(" ");
- return content;
- }
반응형
'Programming > Java' 카테고리의 다른 글
java 에서 숫자만 남기고 지우기 (0) | 2016.11.15 |
---|---|
java 한글,영문,일본,중국 정확한 인코딩 관련, hex -> utf8 문자열 hex 인코딩 방법 관련 (0) | 2016.11.01 |
자바 정규표현식 HTML태그 제거 (0) | 2016.10.30 |
정규식을 이용한 이미지 태그 추출 (0) | 2016.10.29 |
DataInputStream / DataOutputStream (0) | 2016.09.07 |