深度剖析:数据工程师vs数据科学家
为了应对学术思维与“投入生产的需求”之间的差异,我们观察到了一种新型的工程师。 现在,这位工程师大多可以在美国看到。他们的头衔是机器学习工程师。
机器学习工程师主要来自数据工程背景。 他们经历了足够多的交叉培训,变得同时熟练掌握数据工程和数据科学。 一种不常见的途径是数据科学家在数据工程方面进行交叉训练。 对机器学习工程师,我一言以蔽之的定义是:机器学习工程师是坐在数据科学和数据工程的十字路口,并且熟练掌握数据工程和数据科学两方面的人。 如图2所示,您可能想知道在数据科学与数据工程之间存在的差距里会发生什么。 这正是机器学习工程师所处的位置,如图3所示。它们是数据工程师创建的数据管线与数据科学家所创造东西之间的桥梁。 机器学习工程师负责获取数据科学家发现或创造的内容,并使其在生产环境中发挥价值(值得注意的是,数据科学家创建的大部分内容并非在生产上有价值, 并且大部分被用技巧拼凑起来能够工作)。 机器学习工程师的工作,主要是创建数据科学管线的最后一步。 这可能需要几个部分。 它可能是将数据科学家的代码从R / Python重写为Java / Scala。 它可能是从软件工程的角度优化ML / AI代码,保证数据科学家写的代码能够运行良好(或者干脆就是能够运行)。 机器学习工程师具有足够的工程背景,可以在一个领域(数据科学)保障所必需的工程规范,这些领域以并不遵循良好的工程原理而著称。 在生产环境中运行的模型需要维护和输入,而普通的软件并不需要。 机器学习模型可能过时,并开始给出不正确或扭曲事实的结果。 这可能来自数据属性的改变,新数据的增加,或恶意性质的攻击。 无论是哪种方式导致的,机器学习工程师都需要时刻注意他们的模型中需要修改的部分,这可能导致模型的重新训练或调整。 机器学习工程师和数据工程师 数据工程师向机器学习工程师的过渡是一个缓慢的过程。 坦率来讲,我们将看到,变成机器学习工程师需要作出什么变化和变成数据科学家需要作出什么变化是非常相似的。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |