下面是小编为大家整理的2023年资源区对特殊字符处理,供大家参考。
一. 对于 url 中可能出现的字符,要严格限制。
例如:相册,专辑 限制为:汉字,字母,数字,下划线。
字母,数字,下划线只限半角的。
汉字的范围限制为 GBK 标准的 GBK/2 GBK/3 GBK/4 中的所有汉字。不允许 GBK 中 的非汉字字符(GBK/1)。GBK 的码表见附件 二. 对于其它用户提交的内容,用户可以提交任意的内容 . 例如: 名人描述,图片库描述等等。
对于正常的 ASCII 字符和所有 GBK 范围内的汉字都正常存储。
对于所有 GBK 外的字符,由于没有合适的 GBK 表示,一律以实体的形式表示,例如 &#xxxxx; 实体可以正常浏览,但是如果编辑的话,就会看到实体的本来面目。
对于超长的实体,可能会出现截断的情况,出现&#xxx 的形式,可以容忍(如果用户 反馈较多,则进行除里)。这类字符比较典型的情况是韩文. 三. 对于某些特殊字符(157 个),这些字符的 utf8 编码与某些汉字的 gbk 编码重 复,当这些符合单独出现时,会优先判断为对应的 gbk 汉字,导致判断失败,最常见的是 · , 例如,maria· sharapova,会被认为是 “maria 路 sharapova” 这种情况的解决是由 ts 保证都以 utf8 提交[资源区],这样后端不进行编码的判断, 用户提交,后台也能正常判断。
附:utf8 编码与 gbk 编码重复的特殊字符。
1, /* 0xc2a4, gbk: 陇 utf8: ¤*/ 1, /* 0xc2a7, gbk: 搂 utf8: §*/ 1, /* 0xc2a8, gbk: 篓 utf8: ¨*/ 1, /* 0xc2b0, gbk: 掳 utf8: °*/ 1, /* 0xc2b1, gbk: 卤 utf8: ±*/ 1, /* 0xc2b7, gbk: 路 utf8: · */ 1, /* 0xc397, gbk: ?� utf8: × */ 1, /* 0xc3a0, gbk: null utf8: */ 1, /* 0xc3a1, gbk: 谩 utf8: á*/ 1, /* 0xc3a8, gbk: 猫 utf8: è*/ 1, /* 0xc3a9, gbk: 茅 utf8: é*/ 1, /* 0xc3aa, gbk: 锚 utf8: ê*/ 1, /* 0xc3ac, gbk: 矛 utf8: ì */ 1, /* 0xc3ad, gbk: 铆 utf8: í */ 1, /* 0xc3b2, gbk: 貌 utf8: ò*/ 1, /* 0xc3b3, gbk: 贸 utf8: ó*/ 1, /* 0xc3b7, gbk: 梅 utf8: ÷*/ 1, /* 0xc3b9, gbk: 霉 utf8: ù*/ 1, /* 0xc3ba, gbk: 煤 utf8: ú*/ 1, /* 0xc3bc, gbk: 眉 utf8: ü*/ 1, /* 0xc481, gbk: ?� utf8: ā */ 1, /* 0xc493, gbk: ?� utf8: ē */ 1, /* 0xc49b, gbk: ?� utf8: ě */ 1, /* 0xc4ab, gbk: 墨 utf8: ī */
1, /* 0xc584, gbk: ?� utf8: ¨ */ ? 1, /* 0xc588, gbk: ?� utf8: ¨ */ ? 1, /* 0xc58d, gbk: ?� utf8: ō */ 1, /* 0xc5ab, gbk: 奴 utf8: ū */ 1, /* 0xc78e, gbk: ?utf8: ǎ */ 1, /* 0xc790, gbk: ?� utf8: ǐ */ 1, /* 0xc792, gbk: ?� utf8: ǒ */ 1, /* 0xc794, gbk: ?� utf8: ǔ */ 1, /* 0xc796, gbk: ?� utf8: ǖ */ 1, /* 0xc798, gbk: ?� utf8: ǘ */ 1, /* 0xc79a, gbk: ?� utf8: ǚ */ 1, /* 0xc79c, gbk: ?� utf8: ǜ */ 1, /* 0xc991, gbk: ?� utf8: ¨ */ ? 1, /* 0xc9a1, gbk: 伞 utf8: ¨ */ ? 1, /* 0xcb87, gbk: ?� utf8: ˇ */ 1, /* 0xcb89, gbk: ?� utf8: ˉ */ 1, /* 0xcb8a, gbk: ?� utf8: ¨ */ @ 1, /* 0xcb8b, gbk: ?� utf8: ¨ */ A 1, /* 0xcb99, gbk: ?� utf8: ¨ */ B 1, /* 0xce91, gbk: ?� utf8: Α */ 1, /* 0xce92, gbk: ?� utf8: Β */ 1, /* 0xce93, gbk: ?� utf8: Γ */ 1, /* 0xce94, gbk: ?� utf8: Γ */ 1, /* 0xce95, gbk: ?� utf8: Δ */ 1, /* 0xce96, gbk: ?� utf8: Ε */ 1, /* 0xce97, gbk: ?� utf8: Ζ */ 1, /* 0xce98, gbk: ?� utf8: Θ */ 1, /* 0xce99, gbk: ?� utf8: Η */ 1, /* 0xce9a, gbk: ?� utf8: Κ */ 1, /* 0xce9b, gbk: ?� utf8: Λ */ 1, /* 0xce9c, gbk: ?� utf8: Μ */ 1, /* 0xce9d, gbk: ?� utf8: Ν */ 1, /* 0xce9e, gbk: ?� utf8: Ξ */ 1, /* 0xce9f, gbk: ?�utf8: Ο */ 1, /* 0xcea0, gbk: null utf8: */ 1, /* 0xcea1, gbk: 巍 utf8: Ρ */ 1, /* 0xcea3, gbk: 危 utf8: Σ */ 1, /* 0xcea4, gbk: 韦 utf8: Τ */ 1, /* 0xcea5, gbk: 违 utf8: Υ */ 1, /* 0xcea6, gbk: 桅 utf8: Φ */ 1, /* 0xcea7, gbk: 围 utf8: Φ */ 1, /* 0xcea8, gbk: 唯 utf8: Χ */ 1, /* 0xcea9, gbk: 惟 utf8: Ψ */ 1, /* 0xceb1, gbk: 伪 utf8: α */ 1, /* 0xceb2, gbk: 尾 utf8: β */ 1, /* 0xceb3, gbk: 纬 utf8: γ */ 1, /* 0xceb4, gbk: 未 utf8: δ */ 1, /* 0xceb5, gbk: 蔚 utf8: ε */ 1, /* 0xceb6, gbk: 味 utf8: δ */ 1, /* 0xceb7, gbk: 畏 utf8: ε */
1, /* 0xceb8, gbk: 胃 utf8: ζ */ 1, /* 0xceb9, gbk: 喂 utf8: η */ 1, /* 0xceba, gbk: 魏 utf8: θ */ 1, /* 0xcebb, gbk: 位 utf8: ι */ 1, /* 0xcebc, gbk: 渭 utf8: κ */ 1, /* 0xcebd, gbk: 谓 utf8: λ */ 1, /* 0xcebe, gbk: 尉 utf8: μ */ 1, /* 0xcebf, gbk: 慰 utf8: ν */ 1, /* 0xcf80, gbk: ?� utf8: π */ 1, /* 0xcf81, gbk: ?� utf8: ξ */ 1, /* 0xcf83, gbk: ?� utf8: ζ */ 1, /* 0xcf84, gbk: ?� utf8: η */ 1, /* 0xcf85, gbk: ?� utf8: υ */ 1, /* 0xcf86, gbk: ?� utf8: θ */ 1, /* 0xcf87, gbk: ?� utf8: χ */ 1, /* 0xcf88, gbk: ?� utf8: ψ */ 1, /* 0xcf89, gbk: ?� utf8: ω */ 1, /* 0xd081, gbk: ?�utf8: Ё */ 1, /* 0xd090, gbk: ?�utf8: А */ 1, /* 0xd091, gbk: ?�utf8: Б */ 1, /* 0xd092, gbk: ?�utf8: В */ 1, /* 0xd093, gbk: ?�utf8: Г */ 1, /* 0xd094, gbk: ?�utf8: Д */ 1, /* 0xd095, gbk: ?�utf8: Е */ 1, /* 0xd096, gbk: ?�utf8: Ж */ 1, /* 0xd097, gbk: ?�utf8: З */ 1, /* 0xd098, gbk: ?�utf8: И */ 1, /* 0xd099, gbk: ?�utf8: Й */ 1, /* 0xd09a, gbk: ?� utf8: К */ 1, /* 0xd09b, gbk: ?�utf8: Л */ 1, /* 0xd09c, gbk: ?� utf8: М */ 1, /* 0xd09d, gbk: ?�utf8: Н */ 1, /* 0xd09e, gbk: ?� utf8: О */ 1, /* 0xd09f, gbk: ?� utf8: П */ 1, /* 0xd0a0, gbk: null utf8: */ 1, /* 0xd0a1, gbk: 小 utf8: С */ 1, /* 0xd0a2, gbk: 孝 utf8: Т */ 1, /* 0xd0a3, gbk: 校 utf8: У */ 1, /* 0xd0a4, gbk: 肖 utf8: Ф */ 1, /* 0xd0a5, gbk: 啸 utf8: Х */ 1, /* 0xd0a6, gbk: 笑 utf8: Ц */ 1, /* 0xd0a7, gbk: 效 utf8: Ч */ 1, /* 0xd0a8, gbk: 楔 utf8: Ш */ 1, /* 0xd0a9, gbk: 些 utf8: Щ */ 1, /* 0xd0aa, gbk: 歇 utf8: Ъ */ 1, /* 0xd0ab, gbk: 蝎 utf8: Ы */ 1, /* 0xd0ac, gbk: 鞋 utf8: Ь */ 1, /* 0xd0ad, gbk: 协 utf8: Э */ 1, /* 0xd0ae, gbk: 挟 utf8: Ю */
1, /* 0xd0af, gbk: 携 utf8: Я */ 1, /* 0xd0b0, gbk: 邪 utf8: а */ 1, /* 0xd0b1, gbk: 斜 utf8: б */ 1, /* 0xd0b2, gbk: 胁 utf8: в */ 1, /* 0xd0b3, gbk: 谐 utf8: г */ 1, /* 0xd0b4, gbk: 写 utf8: д */ 1, /* 0xd0b5, gbk: 械 utf8: е */ 1, /* 0xd0b6, gbk: 卸 utf8: ж */ 1, /* 0xd0b7, gbk: 蟹 utf8: з */ 1, /* 0xd0b8, gbk: 懈 utf8: и */ 1, /* 0xd0b9, gbk: 泄 utf8: й */ 1, /* 0xd0ba, gbk: 泻 utf8: к */ 1, /* 0xd0bb, gbk: 谢 utf8: л */ 1, /* 0xd0bc, gbk: 屑 utf8: м */ 1, /* 0xd0bd, gbk: 薪 utf8: н */ 1, /* 0xd0be, gbk: 芯 utf8: о */ 1, /* 0xd0bf, gbk: 锌 utf8: п */ 1, /* 0xd180, gbk: ?�utf8: р */ 1, /* 0xd181, gbk: ?�utf8: с */ 1, /* 0xd182, gbk: ?�utf8: т */ 1, /* 0xd183, gbk: ?�utf8: у */ 1, /* 0xd184, gbk: ?�utf8: ф */ 1, /* 0xd185, gbk: ?�utf8: х */ 1, /* 0xd186, gbk: ?�utf8: ц */ 1, /* 0xd187, gbk: ?�utf8: ч */ 1, /* 0xd188, gbk: ?�utf8: ш */ 1, /* 0xd189, gbk: ?�utf8: щ */ 1, /* 0xd18a, gbk: ?� utf8: ъ */ 1, /* 0xd18b, gbk: ?�utf8: ы */ 1, /* 0xd18c, gbk: ?� utf8: ь */ 1, /* 0xd18d, gbk: ?�utf8: э */ 1, /* 0xd18e, gbk: ?utf8: ю */ 1, /* 0xd18f, gbk: ?tf8: я */ 1, /* 0xd191, gbk: ?�utf8: ѐ */
扩展阅读文章
推荐阅读文章
77范文网 https://www.hanjia777.com
Copyright © 2015-2024 . 77范文网 版权所有
Powered by 77范文网 © All Rights Reserved. 备案号:粤ICP备15071480号-27