일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 투두리스트
- MariaDB
- vuejs입문
- google style guide
- 로딩UI
- 뉴스수집
- vue-cli
- 코딩가이드
- 구글CSS
- html제거
- css규칙
- javascript
- 프레임워크
- to do list
- 자기개발
- @keyframes
- 구글스타일가이드
- vueJS
- CSS애니메이션
- 스타일가이드
- 코딩컨밴션
- 개발회고
- Vue.js
- 코딩규칙
- 자바스크립트
- css rule
- CSS로딩
- 파이썬
- python
- 웹스크래핑
- Today
- Total
목록html제거 (2)
코드공부방
웹사이트 크롤링 작업을 하다보면 무조건 직면하게 되는 문제가 있다. 바로 문장에서 HTML태그를 제거해야하는 순간이 온다. 사실은 HTML태그를 제거하는 것은 아니고 HTML코드는 '내용'형태로 되어있기 때문에 정규식을 활용하여 text뭉치에서 '' 문자를 찾아 안에 있는 태그명과 함께 삭제를 하는 것이다. 아래 예제를 보면 자. 웹에서 수집된 HTML태그 제거가 필요한 텍스트는 아래와 같다. 채널배정이 "RB", "A"인 차량 대상 차량 기본 정보 / 배정 정보 1일 2회 업데이트 (오전 10시 / 오후 10시) 차량 조회 수 (매 시간) 리본 상담 수 정보 (매 시간) 엔카 상담 정보 1일 1회 업데이트 (오후 5시) Python에서 정규 표현식을 사용하기 위해서는 내장 모듈인 re를 사용해야 하므로..
문장에서 HTML 코드 제거 (javascript, python) 웹크롤링을 하거나 또는 가공된 데이터를 가져다 쓰다보면 데이터 내에 HTML코드가 삽입되어 있어 이를 제거하고 싶은 경우가 생길 수 있다. 이때 아래처럼 함수를 만들어 사용하여 간단하게 HTML코드 제거가 가능하다. # Python import re def remove_html(sentence) : sentence = re.sub('(]+)>)', '', sentence) return sentence sentence = '나는 지금 화장품을 사러 가고 있다.' sentence = remove_html(sentence) print(sentence) # > 나는 지금 화장품을 사러 가고 있다. # Javascript function remov..