在前面的文章里,我们介绍了数据的存储。由于数据的多样性,AWS使用数据湖和S3存储各种数据。对于机器学习模型而言,存储数据是第一步。如果想在机器学习的模型中使用数据,我们还需要把数据导入Amazon S3或其他的AWS的服务中。
数据湖(Data Lake)服务的一个核心优点是能够快速导入各种类型的数据。但是,有时数据可能并不存储在数据湖中,而是存储在数据库,本地存储平台,数据仓库或者其他地方。如果想利用这些数据构建机器学习模型,就先需要把数据接入类似于S3之类的服务中。
导入数据有两种方法:批处理和流处理。我们在这里分别介绍。
精彩评论