第八十四章网络实现的机器学习笔记_学医路漫漫手机在线阅读

元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化

模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。这本身就是一种分布。

模式识别（根据特征构建模型，然后与具体数据比对）：对特征变量的测量，只要数目足够多，我们就可以以比较高的精度来避免各种可能的误差，这我认为是可以把各种医疗可能产生的伤害降到最低，即所谓的异常检测问题。我们使用概率来分类，即特定数据在做出范围的概率是多少，高于一定阈值（与平均值的距离）可以认为属于同一类。

我们还可以在分布的层次进行模式识别。

μ是平均值，后者是方差。选择一个阈值来作为评定的边界，从而进行模式识别，即通过给出的数据集拟合参数，进行参数估计，得到参数μ和σ，然后检测新的样本，确定新样本是否是异常。

通过将一些相关的特征进行组合（如特征之间的比例），来获得一些新的更好的特征，这可以视为层次的耦合影响的性质。我在考虑这是不是可以以微分方程的形式来组合。

多元高斯分布能够构建更加精确的边界，可以通过构造新新特征的方法来捕捉这些相关性。

具体的应用，推荐系统，我认为就是对序列识别乃至序列匹配的一个很好的说明。这需要足够多的特征才能识别，这种就是我们的序列，根据过去的经验进行贝叶斯运算来迭代各种可能的概率。这种特征向量的组合就是序列。

数据的获取，医疗方面的各种描述性的指标，如面色发红，精神不振等等，我们需要考虑构建一定的特征向量，然后以其具体的比例来获取数据。我们可以考虑构建这样的医疗诊断平台，基于大规模的数据制定一定的分类，通过模拟现实中医生的诊断思维过程，构建一定的评价标准来不断迭代，以接近乃至超越医生。

第八十四章网络实现的机器学习笔记(6/6),点击下一页继续阅读。

『加入书签，方便阅读』