火星文是什么意思?
火星文,可解作火星人的文字。随着互联网的普及,年轻网民为求方便或彰显个性,开始大量使用同音字、音近字、特殊符号来表音的文字。由于这种文字与日常生活中使用的文字相比有明显的不同并且文法也相当奇异,所以亦称火星文,意指地球人看不懂的文字。“火星文”这种称法最早出现于台湾社会,随即流行于中国大陆、香港和海外华人社会,成为中文互联网上的一种普遍用法,并逐渐向现实社会中渗透。
“火星文”由符号、繁体字、日文、韩文、冷僻字等非正规化文字符号组合而成。乍看像是乱码或打错的字,用法也不同于汉字那么规范,从字面上根本无法了解。其实,“火星文”几年前就作为一种游戏用语在泡泡堂流行,接着又通过QQ资料及聊天快速散播,成为许多年轻人的共用语言。据考证,“火星文”起源于我国台湾地区。一些上网族最初为了打字方便,用注音文替代一些常用文字在网上交流,达到了快速打字兼可理解内容的效果。很快,一些台湾网友觉得这种文字另类醒目,便把这种输入方式发扬光大。随着《劲舞团》等低龄网游在大陆的流行,这一潮流随着网游等渠道进入大陆,一部分80年代和90年代出生的网友开始延续这种独特的文字,并自创了适合简体中文发挥的输入方式,比如“劳工”、“男盆友”、“粉可爱”、“你素谁”。当使用人群和新生词组形成一定规模后,出现了一些热衷软件开发的网络高手制作出“火星文”专用软件,在网上流行的有“大黑鱼”等软件。转换软件的出现使得“火星文”具备了密码功能,它成了一个群体保护隐私的方法。在受众中,这年轻的群体成了火星文的追捧者和传播者。
火星文是怎么回事?
能。
只要能把火星文复原成正常的文字,后续的理解、翻译等等都可以用现有的技术来做。而把火星文复原成正常的文字,可以用与语音识别相同的方法。
语音识别中最核心的方程是:
其中,W代表单词或字符序列,X代表波形,P(W)是字符序列W本身的概率,P(X|W)是字符序列产生波形X的概率。通俗地讲,这个方程说的是,给定波形后,我们要找的字符序列既要本身像话,又要跟观察到的波形相匹配。
把这个方程中的X换成火星文的字符序列,就可以解决复原火星文的问题了。也就是说,给定一个火星文序列,我们要找一个正常的文字序列,它既要本身像话,又要跟火星文相匹配。
方程中的P(W)和P(X|W)两项是需要训练的。
在语音识别中,前者称为语言模型,可以用大量的文本来训练;后者称为声学模型,可以用大量的文本与相应的波形来训练。
在火星文识别中,语言模型不变,我们只需要重新训练与“声学模型”对应的部分。
我们当然可以收集大量的正常文本与火星文本对照的数据,用纯统计的方法来训练。
但我们也可以往里加一些“智能”——比如我们知道“吥”“怀”“杯”“坏”的右边都是“不”,“卜”“卟”“布”等字都念bu,所以这些字在火星文中都可以代表“不”字。
为此,我们需要有关汉字读音和字形的数据库。
Unihan數據庫
中有关于字音的信息,但我还不知道有什么包含字形信息的数据库。谷歌翻译之类的工具翻译不了火星文,非不能也,实不为也。