lang/html
URL 문자 집합, 제한, 안전하지 않은 문자
C/H
2016. 6. 28. 08:30
컴퓨터 시스템의 기본문자 집합과 , 애플리케이션 문자 집합은 전통적으로 US-ASCII 문자 셋을 사용한다.
URL 설계자들은 모든 인터넷 프로토콜로 URL이 전송 될 수 있기를 바랐고, 이와 함께 가독성이 있기를 바랐다. 따라서 출력되지 않거나 보이지 않는 문자를 이메일 프로그램에서 사용할 수 있다고 해서 , 그 문자들이 변환 될 수 있다고 해서, 그리고 그 문자들이 변환 될 수 있다고 하더라도, URL에서 그 문자들을 사용하는 것은 금지 되어 있다.(인쇄되지 않는 문자에는 공백이 포함된다. RFC2396에서는 애플리케이션이 공백을 무시하기를 추천한다는 점을 알아 두자)
안전문자셋 표현의 한계를 넘기 위해 URL에서는 %로 시작하는 ASCII로 시작하는 2개의 16진수 숫자로 이루어진 '이스케이프'문자를 사용 할 수 있다.
문자 | ASCII | 예 |
---|---|---|
~ | 126 (0x7E) | http://abc.com/%7Eindex.html |
빈문자 | 32 (0x20) | http://abc.com/more%20index. html |
% | 37 (0x25) | http://abc.com/more%25index. html |
문자 | 선점 및 제한 |
---|---|
% | 인코딩된 문제에 사용할 이스케이프 토큰으로 선점 |
/ | 경로 컴포넌트에 있는 경로 세그먼트를 나누는 용도로 선점 |
. | 경로 컨포넌트로 선점 |
.. | 경로 컨포넌트로 선 |
# | 프레그먼트 구획문자로 선점 |
? | 질의 문자열 구획문자로 선점 |
; | 파라미터 구획문자로 선점 |
: | 스킴, 사용재 이름/비밀번호, 호스트/포트 의 구획문자로 선점 |
$,+ | 선점 |
@&= | 특정스킴에서 특별한 의미가 있기 때문에 선점 |
{}|\•~[]` | 게이트웨이와 같은 여러 전송 에이전트에서 불안전하게 사용되기 때문에 제한됨 |
<>" | 안전하지 않음. URL 범우ㅏ 밖에서 역활이 있는 문자로 반드시 인코딩해야 한다. |
0x00-0x1F, 0x7F | 제한됨.US-ASCII이지만 인쇄돠지 않는 문자로 제한됨 |
> 0x7F | 제한됨. US-ASCII문자가 아니다. |
- HTTP 완벽 가이드 ISBN 978-89-6626-120-8 40page
반응형