Page 134 - 计算机应用软件开发技术研究
P. 134
计算机应用软件开发技术研究
Research on Computer Application Software Development Technology
特征及其所需要求大致包含三个方面。
1.数据性质极其复杂
在互联网及金融行业,训练实例的数量极其丰富,每日出现包含数十亿事件
的数据集合也是司空见惯的。同时,包含传感器在内的各类设备持续性记录观察
数据也可以作为训练数据投入使用。而此类数据集合动辄可以高达数百 TB,针
对大型数据集合,最为理想的方式是结合服务器集合的存储与带宽。为此,可以
采用最新的计算框架简化针对大型数据集进行计算的工作。机器学习的实际应用
通常包含自然语言、图形以及视频,而这些数据所包含的数据实例具备众多数量
特征,在数量方面远超当下可以轻易进行处理的特征。为求促进计算扩展到更加
丰富的程度,在特征空间内并行计算可以得到较好的效果,另外可以引入在特征
空间内进行迭代运算的具体算法。
2.计算难度较大
在部分应用场景中,如 AI 导航和智能化差异化推送,都需要及时进行预
测。受限于预测速度,为求较短的预测时间,预测算法需要复合的并行化处理。
计算时间通常取决于单项任务的处理时间以及时延,可以通过提升一台机器的性
能与吞吐量减少单项任务所需的计算时间;将任务设置为复数彼此相关的进程
组,由于不同进程所需的处理时间不一,任务的总体处理时间取决于各个进程的
计算所花费的时间,如果其中一个进程处理时间有所延长,任务在总体层面就会
相应地遭遇时延,以至于拖慢任务的完成。部分精确度较高的学习算法以复杂的
非线性模型或是造价不菲的计算子程序为基础,为此分配计算作业至不同的处理
单元才是大数据学习算法的重点工作。在特殊行业内,部分数据在基础特征方面
呈现非线性的结构,在其中运用高精度非线性表现方法在性能方面胜于普通的简
单算法。这种算法的共同性质是计算较为复杂,一台机器的学习速度会极其缓
慢,使用并行多节点处理或是多核处理则可以较好地提升针对大数据使用复合算
法和模型计算的速度。
3.预测级联需求较高且需要反复学习预测
在部分应用场景下,对于顺序和彼此依赖的预测要求较高,其中具有高度复
杂的联合输出空间,并行化处理可以有效提高速度。现实中的很多问题,如物体
的追踪、语音的识别和机器的翻译,都需要执行一整套彼此依赖的预测,乃至需
要构造预测层级。假设以一个级联为任务,那么就会带来充足的联合输出空间,
·122·

