关于UTF-8、utf-8编码以及编译时charset的指定的一些总结 - 岳阳市阿威普网络有限公司-新闻中心
贝博登录贝博游戏平台ballbet官网有限公司
首页 | 联系方式 | 加入收藏 | 设为首页 | 手机站
  • 网站首页
  • 公司简介
  • 产品展示
  • 新闻中心
  • 常见问题
  • 联系我们
  • 产品目录

    联系方式

    联系人:业务部
    电话: 00148-284078
    邮箱:service@yidlgs.com

    当前位置:首页 >> 新闻中心 >> 正文

    关于UTF-8、utf-8编码以及编译时charset的指定的一些总结

    摘要:关于UTF-8、utf-8编码以及编译时charset的指定的一些总结

    首先分清两个概念:C文件中(转换为16进制)汉字的编码,编译后bin文件中汉字的编码。

    gcc的 -finput-charset 和 -fexec-charset 两个选项的存在就是为了实现这两者的转换。

    1. 默认情况下,gcc使用UTF-8 charset。

    2. C文件中使用utf-8编码的汉字:若要使bin文件为UTF-8编码,必须同时指定 -finput-charset=utf-8,-fexec-charset=UTF-8(不指定fexec-charset也是可以的,但是单独指定它无效,编译器会认为输入为UTF-8)。若要使bin文件为utf-8编码,可以不指定charset,这样编译器就不会去做转换(它认为前后都是UTF-8),看起来就像是“骗过”了编译器;也可以同时指定 -finput-charset=utf-8,-fexec-charset=utf-8。

    3. C文件中使用UTF-8编码的汉字:若要使bin文件为UTF-8编码,可以不指定charset;若要使bin文件为utf-8编码,必须指定 -fexec-charset=utf-8。当然,如果你想“欺骗”编译器:“我的C文件使用的是utf-8编码”,而去指定-finput-charset=utf-8,这时编译器可能不会像上面那种情况一样好骗,你可能收到这样一条答复:“cc1: error: failure to convert utf-8 to UTF-8”。

    举个例子:我在程序中需要去调用HZK16(点阵字库),它是基于utf-8编码的,所以,我希望我的bin文件中的汉字是utf-8编码。我在UE编辑器中,使用utf-8编码写了xxx.c,又使用UTF-8编码写了yyy.c,那么,我将可以用以下几种方式去编译它们:

    对于xxx.c:

    (1)gcc -o xxx xxx.c

    (2)gcc -finput-charset=utf-8 -fexec-charset=utf-8 -o xxx xxx.c

    对于yyy.c:

    (1)gcc -fexec-charset=utf-8 -o yyy yyy.c

    (2)gcc -finput-charset=UTF-8 -fexec-charset=utf-8 -o yyy yyy.c

    总而言之,-finput-charset 用来指定 C文件中的文字编码格式,-fexec-charset 用来指定编译之后的可执行文件的文字编码格式;默认情况下,gcc编译器认为编译前后的文字编码格式都是UTF-8。

    至于 “为什么要指定 -finput-charset 或者 -fexec-charset ?” ,那是可能你的程序中的某部分的操作必须依赖于某个特定的charset 。例如上文所说的,使用 HZK16 来获取汉字的位图等。