AWS机器学习之数据工程:批处理和流处理数据

健谈始于戊戌年
2021-08-23

在前面的文章里,我们介绍了数据的存储。由于数据的多样性,AWS使用数据湖和S3存储各种数据。对于机器学习模型而言,存储数据是第一步。如果想在机器学习的模型中使用数据,我们还需要把数据导入Amazon S3或其他的AWS的服务中。

数据湖(Data Lake)服务的一个核心优点是能够快速导入各种类型的数据。但是,有时数据可能并不存储在数据湖中,而是存储在数据库,本地存储平台,数据仓库或者其他地方。如果想利用这些数据构建机器学习模型,就先需要把数据接入类似于S3之类的服务中。

导入数据有两种方法:批处理和流处理。我们在这里分别介绍。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法