语言本身不是编码规则能耐解决
的
文字更加的像是一个对象一个可以容纳信息的对象
而不是单个数据能表达的
这就和编程语言一样
不同的对象的函数 组合起来表达出人类想要表达的意思
所以处理语言不能想表达数字规律自然法则一样处理
要像处理对象一样处理或者会更好
当然这仅仅是本人的观点
并没有证实过
不过我们可以试图的去将语言 比如中文对象话
比如中文 做 写成一个函数 做 这个函数 可以有的属性
是做饭 做菜 做包子 等等 一切名词的属性 都能做
也就是说作为 做 这个类 要继承一个 词性 的类
他决定了 这个 词的类的属性 都有什么
比如 名词类 动词类 量词 介词 等
岔开话题
说到这想到我们目前简单粗暴的词向量编码是不是 太粗暴了些
因为一个语言词语的维度 不仅仅是 符号这么简单
所以在文本编码的时候 要进行多维度的编码 要将人类赋予这个符号的所有信息都编辑进去 包括声调 词性 这里也是对 中文编码的一种补充
在说回来
如果真的将中文的所有词语
都写成这样的类 在同样的编码成矩阵 或者是其他理论
或许会解决机器交互问题