模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。这本身就是一种分布。
模式识别(根据特征构建模型,然后与具体数据比对):对特征变量的测量,只要数目足够多,我们就可以以比较高的精度来避免各种可能的误差,这我认为是可以把各种医疗可能产生的伤害降到最低,即所谓的异常检测问题。我们使用概率来分类,即特定数据在做出范围的概率是多少,高于一定阈值(与平均值的距离)可以认为属于同一类。
我们还可以在分布的层次进行模式识别。
μ是平均值,后者是方差。选择一个阈值来作为评定的边界,从而进行模式识别,即通过给出的数据集拟合参数,进行参数估计,得到参数μ和σ,然后检测新的样本,确定新样本是否是异常。
通过将一些相关的特征进行组合(如特征之间的比例),来获得一些新的更好的特征,这可以视为层次的耦合影响的性质。我在考虑这是不是可以以微分方程的形式来组合。
多元高斯分布能够构建更加精确的边界,可以通过构造新新特征的方法来捕捉这些相关性。
具体的应用,推荐系统,我认为就是对序列识别乃至序列匹配的一个很好的说明。这需要足够多的特征才能识别,这种就是我们的序列,根据过去的经验进行贝叶斯运算来迭代各种可能的概率。这种特征向量的组合就是序列。
数据的获取,医疗方面的各种描述性的指标,如面色发红,精神不振等等,我们需要考虑构建一定的特征向量,然后以其具体的比例来获取数据。我们可以考虑构建这样的医疗诊断平台,基于大规模的数据制定一定的分类,通过模拟现实中医生的诊断思维过程,构建一定的评价标准来不断迭代,以接近乃至超越医生。