您是否曾希望自己能理解狗想对您说什么?密歇根大学的研究人员正在探索人工智能的可能性,开发可以识别狗叫声是表达嬉戏还是攻击性的工具。

  同样的模型还可以从动物的叫声中收集其他信息,例如动物的年龄、品种和性别。这项研究与墨西哥普埃布拉国家天体物理、光学和电子研究所 (INAOE) 合作,发现最初以人类语言训练的人工智能模型可以作为训练针对动物交流的新系统的起点。

  “通过使用最初针对人类语音进行训练的语音处理模型,我们的研究为如何利用迄今为止在语音处理方面建立的基础来理解狗叫声的细微差别打开了一扇新的窗口,”Janice M. Jenkins 计算机科学与工程学院教授、密歇根大学人工智能实验室主任 Rada Mihalcea 说道。“我们对与我们共享这个世界的动物还有太多不了解的地方。人工智能的进步可以彻底改变我们对动物交流的理解,我们的研究结果表明,我们可能不必从头开始。”

  开发能够分析动物发声的人工智能模型的主要障碍之一是缺乏公开可用的数据。虽然有大量的资源和机会可以记录人类的语音,但从动物身上收集这些数据却更加困难。

  “从逻辑上讲,动物的叫声很难采集和记录,”论文第一作者、密歇根大学计算机科学与工程博士生 Artem Abzaliev 说道。“它们必须在野外被动记录,或者,对于家养宠物,则需要主人的许可。”

  由于可用数据匮乏,用于分析狗叫声的技术很难开发,现有的技术也因缺乏训练材料而受到限制。研究人员通过重新利用最初设计用于分析人类语音的现有模型克服了这些挑战。

  这种方法使研究人员能够利用强大的模型,这些模型构成了我们今天使用的各种语音技术的基础,包括语音转文本和语言翻译。这些模型经过训练可以区分人类语音中的细微差别,例如声调、音调和口音,并将这些信息转换为计算机可以用来识别所说单词、识别说话人等的格式。

  “这些模型能够学习和编码人类语言和语音的极其复杂的模式,”阿布扎利夫说。“我们想看看我们是否可以利用这种能力来辨别和解释狗叫声。”

  研究人员使用了一组狗叫声数据集,这些狗叫声记录了 74 只不同品种、年龄和性别的狗在不同环境下发出的声音。INAOE 的合作者 Humberto Pérez-Espinosa 领导了收集数据集的团队。Abzaliev 随后利用这些录音修改了一个机器学习模型——一种识别大型数据集中模式的计算机算法。该团队选择了一个名为 Wav2Vec2 的语音表示模型,该模型最初是在人类语音数据上进行训练的。

  利用该模型,研究人员能够生成从狗身上收集到的声学数据的表示并解释这些表示。他们发现 Wav2Vec2 不仅在四项分类任务中取得了成功;它的表现还优于其他专门针对狗叫声数据进行训练的模型,准确率高达 70%。

  “这是首次利用针对人类语音优化的技术来帮助解码动物交流,”米哈尔恰说。“我们的研究结果表明,源自人类语音的声音和模式可以作为分析和理解其他声音(如动物发声)声学模式的基础。”

  除了建立人类语音模型作为分析动物交流的有用工具之外,这项研究对动物福利也有重要意义。研究人员表示,了解狗叫声的细微差别可以大大改善人类对狗的情感和身体需求的理解和反应,从而加强对狗的照顾并防止潜在的危险情况。