본문 바로가기

Programming/Java

정규식을 활용해 HTML 태그 제거하기. 순수Text만읽기

반응형

http://blog.acronym.co.kr/227


  1. private String getText(String content) {  
  2.     Pattern SCRIPTS = Pattern.compile("<(no)?script[^>]*>.*?</(no)?script>",Pattern.DOTALL);  
  3.     Pattern STYLE = Pattern.compile("<style[^>]*>.*</style>",Pattern.DOTALL);  
  4.     Pattern TAGS = Pattern.compile("<(\"[^\"]*\"|\'[^\']*\'|[^\'\">])*>");  
  5.     Pattern nTAGS = Pattern.compile("<\\w+\\s+[^<]*\\s*>");  
  6.     Pattern ENTITY_REFS = Pattern.compile("&[^;]+;");  
  7.     Pattern WHITESPACE = Pattern.compile("\\s\\s+");  
  8.       
  9.     Matcher m;  
  10.       
  11.     m = SCRIPTS.matcher(content);  
  12.     content = m.replaceAll("");  
  13.     m = STYLE.matcher(content);  
  14.     content = m.replaceAll("");  
  15.     m = TAGS.matcher(content);  
  16.     content = m.replaceAll("");  
  17.     m = ENTITY_REFS.matcher(content);  
  18.     content = m.replaceAll("");  
  19.     m = WHITESPACE.matcher(content);  
  20.     content = m.replaceAll(" ");          
  21.       
  22.     return content;  
  23. }  


반응형