아침
HTTP(요청/응답)
urllib(urlopen(요청 또는 문자열 : URL)
robots.txt(확인), 개인 O, 배포 X, 학습/연구 가능, 출처
요청/응답 – 헤더, 본문
요청 – 헤더, 본문(POST)
Resp – 헤더(상태, 이유, 헤더..), 본문(HTML: 바이트)
본문->읽기 ; 바이트 -> 문자열(UTF-8, ISO-8859-1)
HTML 엔티티(&____#Hexadecimal___;) -> HTML.unnescape
————————————————– ————————————————– —-
요청 – 헤더(User-agent :?, robots.txt에 정의됨)
————————————————– ————————————————– —-
GET 매개변수(QueryString): ? (매개변수), &(구분자), =(키, 값)
HTTP – 모든 통신 바이트. URL 코드
urlparse, parse_qs, 비ASCII -> 바이트(따옴표, 인용부호, quote_plus, unquote_plus)
————————————————– ————————————————– —-
사용자 에이전트 ?, Params(GET, POST), (un)quote_plus
