Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- google style guide
- 구글스타일가이드
- python
- CSS로딩
- css규칙
- vueJS
- vuejs입문
- html제거
- 개발회고
- @keyframes
- 코딩규칙
- css rule
- CSS애니메이션
- 로딩UI
- 자바스크립트
- to do list
- 코딩가이드
- 자기개발
- MariaDB
- 프레임워크
- 코딩컨밴션
- 스타일가이드
- vue-cli
- 파이썬
- javascript
- 구글CSS
- 웹스크래핑
- 뉴스수집
- Vue.js
- 투두리스트
Archives
- Today
- Total
목록웹프로그래머/웹스크래핑 (1)
코드공부방
[웹크롤링] 웹사이트 인코딩 확인 및 디코딩하기 (python)
[웹크롤링, 웹스크래핑] 웹사이트 인코딩 확인 및 디코딩하기 (python) 파이썬 urllib을 사용해 스크래핑을 할때, HTTP헤더와 HTML의 meta 태그를 기반으로 웹페이지 인코딩 방식을 판별해야 한다. 인코딩 방식을 제대로 판별하지 않으면 문자가 깨져보여 정확한 데이터를 추출할 수 없다. 먼저 urllib.request 모듈을 사용하여 네이버 웹페이지 소스를 추출해보자. from urllib.request import urlopen f = urlopen('https://naver.com') f.read() 위 코드를 실행하면 아래와 같은 결과값을 얻을 수 있다. 한글이 모두 깨져서 출력이 된다. HTTPResponse.read() 메소드로 추출한 값은 bytes 자료형이므로 원하는 정보를 얻으..
웹프로그래머/웹스크래핑
2021. 9. 13. 13:06