'urllib' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록urllib (1)

코드공부방

[웹크롤링] 웹사이트 인코딩 확인 및 디코딩하기 (python)

[웹크롤링, 웹스크래핑] 웹사이트 인코딩 확인 및 디코딩하기 (python) 파이썬 urllib을 사용해 스크래핑을 할때, HTTP헤더와 HTML의 meta 태그를 기반으로 웹페이지 인코딩 방식을 판별해야 한다. 인코딩 방식을 제대로 판별하지 않으면 문자가 깨져보여 정확한 데이터를 추출할 수 없다. 먼저 urllib.request 모듈을 사용하여 네이버 웹페이지 소스를 추출해보자. from urllib.request import urlopen f = urlopen('https://naver.com') f.read() 위 코드를 실행하면 아래와 같은 결과값을 얻을 수 있다. 한글이 모두 깨져서 출력이 된다. HTTPResponse.read() 메소드로 추출한 값은 bytes 자료형이므로 원하는 정보를 얻으..

웹프로그래머/웹스크래핑 2021. 9. 13. 13:06

Prev 1 Next

목록urllib (1)

코드공부방

티스토리툴바