我们的生活中处处是自然语言。我们说的每一句话,电台主持人的每一句播报,电视剧里的每一句台词,以及书本里的一行行文本,或是你正在读到的这句话,都是自然语言。和视觉图像一样,对于自然语言的处理也占据着我们日常生活中的一大部分。在机器学习(Machine Learning)打通了计算机视觉(Comoputer Vision)这一领域的任督二脉,即各大神经网络在视觉应用场景中落地的同时,人们也在期盼着针对于自然语言的智能算法的发展以及应用落地,自然语言处理(Natural Language Processing)这一学科也应运而生。
可为什么智能算法先在视觉图像领域中先得以应用,而不是自然语言领域?
其实原因很好理解。一张 1080p 清晰度的图片由 1920(宽)x 1080(高)个像素点构成。每一个像素点表示一种颜色,而一种颜色是由三原色红、绿、蓝三种颜色的组合所表示的。具体地说,一个像素点可以用 (R, G, B) 三个 0 - 255 之间的数字所表示。我们不难发现这张1080p的图片就是一个 3 x 1920 x 1080 的矩阵(matrix)或张量(tensor)。因此,对于以卷积操作为核心的主流机器学习模型,如卷积神经网络(Convolutional Neural Network, CNN),图像数据的矩阵表现形式能够完美适配卷积操作.