社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
[戴维·埃尔默]米尔曼·帕里口头文学特藏的数字化:成就、挑战及愿景
中国民族文学网 发布日期:2018-04-02  作者:戴维·埃尔默

作者:戴维·埃尔默 (David F. Elmer) 译者:李斯颖 巴莫曲布嫫

  内容提要:文章以哈佛大学“米尔曼·帕里口头文学特藏”的历史沿革、主要成就及晚近发展为主线,从以下三个方面讨论了口头史诗传统的数字化建档实践及其在多学科研究领域的潜在应用价值:其一,技术创新与田野作业的问题导向;其二,田野资料的组织管理、数字化进程及在线数据库的创建;其三,方法论的挑战与建设数字语料库的可能途径。

  关键词:米尔曼·帕里口头文学特藏 田野作业 数字化 数据库 语料库

  今天,能以哈佛大学米尔曼·帕里口头文学特藏(以下简称“帕里特藏”)[1]副监理的身分发言荣幸之至。[2] 在过去的十年间,我们一直致力于将米尔曼·帕里(Milman Parry)和阿尔伯特·洛德(Albert Lord)编纂的南斯拉夫史诗庞大档案转化为可公开获取的数字资源。因此,我非常感谢能有这样的机会向大家介绍这项工作。我同样也很感谢能藉此机缘听取诸位尊敬的同行讲述自己的工作,由此我意识到在帕里特藏工作的我们也有很多需要向大家学习的地方。与在座许多人现有的成就和未来的规划相比,我想我们在数字化领域的工作仍有待加强。尽管如此,帕里特藏在许多方面依然堪称是诸多口头传统档案的典型。我希望我们近年来取得的经验对各位的工作有所助益,也希望引起大家的关注。在我发言的总结部分,我还想与大家分享一些想法,以便在帕里特藏与类似档案库的关联中探讨可能途径,让资料搜集和呈现以新的形式开启全新的研究问题。

  一 技术创新与田野作业的问题导向

  在论及将来甚或当下的问题之前,我想先回望一下过去。我认为,帕里特藏的历史提供了一个极好的示例,说明技术创新总是与研究的问题导向密切相关。

  1933年,帕里第一次前往南斯拉夫王国去研究口头史诗传统。甚至在出发之前,帕里就已经意识到,此前几乎所有的调查者皆习惯采用的方法—— 即通过录记(dictation)来搜集资料——无法解答他希望前去调查的基本问题。帕里最主要的兴趣点不是史诗的内容,而在于史诗演述中的创作及其方式。鉴于一首歌的录记与将之作为歌诗来加以演述是两个截然不同的过程,因此对帕里来说,通过录记来搜集资料的作用十分有限。诚然,他确实在田野工作中以录记方式搜集了大量资料,但是其时间、精力及经费投入总是以资料的现场采录为重心。

  1933年夏天,帕里首次开展田野作业,其间他尝试着使用一种叫作“语图”(Parlograph) 的录音装置,即将资料记录在蜡筒上。这种设备有两个主要的限制。首先,其声学麦克风不足以把歌手的声音与古斯莱琴(gusle)的音响隔离开来,而古斯莱琴是歌手们典型的伴奏乐器。帕里曾在报告中述及其录音中充斥着大量不知所云的语词,因而这些录音变得毫无用处。我很遗憾地告诉大家,帕里的这些蜡筒录音都没能保存下来。当时,蜡筒通常都被刮干净之后再次用于记录,如此便可循环使用。我想帕里用来记录的蜡筒也同样如此。其次,这些蜡筒最大的记录容量约为四分钟,这意味着只能用其捕捉一场典型史诗演述的一个小片段。而这些史诗演述可能长达数小时,其中的分段大约为二十至四十分钟。

  当帕里计划在1934年和1935年进行为期更长的考察时,首当其冲考虑的是寻找一种更好的办法去记录史诗歌。通过询问打探他找到了一位在康涅狄格州沃特伯里的音响专业公司工作的工程师,名叫林肯·汤普森(Lincoln Thompson)。汤普森为帕里设计了一种特殊的录音装置。这个设备包括四个主要构件:一个电子麦克风,能够通过定位从其他声响中隔离出歌手的声音;两个刻录器,能够直接往空白铝盘上录音;还有一个增强仪,允许操作者将麦克风的信号从一个录音单元切换到另一个录音单元。新型麦克风使帕里能够轻松地获得易于理解的录音,但汤普森设计中真正的创新是使用了两套平行的录音设备。每一张铝盘的单面音频容量为三分半钟。但是,通过切换录音头,帕里能够不间断地录上好几个小时。在田野中,唯一的限制是机器电池可提供的电量。

  基于自身对力图开展的这项研究及其所需的各种资料的理解,帕里经过考虑对这款设备的委托制作提出了一些具体的要求。然而,至少从一个方面看,这项技术本身造就了一大堆资料,否则帕里便无法将它们搜集到手。但他发现,这些资料对于其工作而言也具有启发意义。每次使用机器时,都必须对其进行校准,因此需要先在一个测试盘上录制。帕里很快便养成了这样的习惯,那就是要求歌手先试唱将要演述的整首歌的开端。当测试完成并进行了校准后,歌手便再次从头开始。通过这种方法,帕里获得了大量被他称之为probe-proba的段落——probe-proba在塞尔维亚—克罗地亚语中意为“测试”——每一段测试都可以与同一位歌手在几分钟后演述的同一段材料的另一版本相比较。换言之,帕里在这种资料中观察到, 即使在歌的开端部分,特色化的措词甚至比其他地方更为固定,但从演述到演述之间,仍存在着大量的变体——这并没有给他带来太大的意外。然而,这些probe(测试)构成了一种实验,允许帕里以一种可控的精确方式来检验程式的多形性(formulaic multiformity)。我认为,这项实验是强加于帕里的,源自其所采用的技术。强调这一点是重要的:至少在这个方面,是技术在引导着帕里的研究,而非其他方式。

  就技术创新与帕里田野工作之间的关系而言,我想再作最后的一点评论。熟悉帕里特藏的在座各位,可能会想起帕里为他发现的最具天赋的歌手所录制的短片,那就是阿夫多·梅杰多维奇(Avdo Međedović)。短片的音轨被录制在帕里的一份铝盘上。现在,视频录制是田野工作的基础环节,也是演述建档的首选方式;但这个短片文件在帕里档案中实属独一无二。这显然是帕里唯一一次使用摄影机的结果。这部影片总是让我觉得有点“怪异”。诚然,考虑到制作影片的成本高,而且在现场拍摄的技术难度很大,合理的解释是:只有在最特殊的情况下,帕里才会使用这种技术。但是,据我所知,在帕里提交给哈佛大学的计划文案中并没有通过胶片来记录史诗演述的明确意图。他的思考牢牢地锁定在音频录制方面。然而,对我而言,帕里的影片后来开始变得更合乎情理了。几年前我才发现,汤普森,也就是为帕里设计录音设备的那位工程师,曾深度参与过制作同声电影的技术开发。我认为,存在一种明显的可能性:汤普森建议帕里使用胶片来记录歌手,并且他主动将这种技术上的可能性融入到自己的设计之中。在这种情形下,帕里田野工作中最具创新性的一个方面——视听记录的创建——不是由他自己的研究项目所驱动的,而是他所依靠的技术和技术专家意见的产物。

  帕里格外成功地将汤普森的录音设备应用于田野现场。他最终录制了3584张双面铝盘,大概有418小时,涉及歌诗、复诵及交谈;其中的273小时呈现为史诗演述。这418个小时由758个单独条目组成,包括独立成篇的歌诗和歌手访谈。这是一大笔资料。但实际上,与帕里通过录记或歌手亲自手写而搜集到的资料量相比,那就是小巫见大巫了。总的说来,帕里搜集到的资料包括12552个单独条目。需要说明的是,在录音资料中,一个条目——我指的是一首单独成篇的歌诗或者一次访谈——有多个档案对象。一个单独的条目通常包括多个录音盘面,在某些案例中甚至超过100个;此外还有能填满若干个笔记本的文本誊录。所有记录的誊写都是由帕里的助手尼古拉·武伊诺维奇(Nokola Vujnovi?)在20世纪30年代完成的。

  二 田野资料的组织管理、数字化进程及在线数据库的创建

  帕里在田野中非凡的产出为如何组织其档案带来了巨大的挑战。尽管帕里在他搜集的资料上做了细致的注解,但这些注释并没有以任何方式转换为该特藏的一个可用的索引。帕里本人始终没能创建这样一个索引:可能大家也知道,1935年,当他从田野现场返回后不久便不幸辞世。身为帕里的学生,阿尔伯特·洛德承担起该特藏的工作,并由他负责将资料转化为一种对研究而言有用的资源。1937年,洛德聘用了一位助手,名叫约翰·哈斯汀(John Hastings);他们利用当时最先进的技术即卡片式目录,来创建帕里特藏的一个综合索引,并于1938年完成。这个卡片式目录,按照歌手、歌诗以及记录的日期来索引全部资料。[3] 在长达近六十年的时间中,哈斯汀的卡片目录是查询特藏内容的首选方式。直到1995年,时任帕里特藏副监理的马修·凯(Matthew Kay)出版《米尔曼·帕里特藏索引》[4] 之后,这种局面才得以改观。事实上,卡片式目录对于研究者来说仍是至关重要的,因为凯的索引只涵盖了史诗以及对史诗歌手的访谈——而这些内容仅占特藏中所有条目总数的10%左右。

  尽管如此,凯迈出了帕里特藏及其组织架构实现现代化的第一步。为便于完成索引的编写,他使用一个名为ProCite的文献管理软件包来建立史诗资料电子数据库。[5] 这个数据库包括卡片目录中的信息,还有从帕里田野笔记中摘引出来的补充信息,后者成为现今帕里特藏在线数据库的基础。有关这个数据库,我稍后再作进一步的讨论。凯还负责帕里特藏首次以电子格式呈现所藏资料的相关工作。洛德的《故事的歌手》(The Singer of Tales)第二版附有一张CD-ROM光碟,里面收录了若干录音、誊写及照片,制作者便是凯。

  然而,凯也意识到,他所使用的CD-ROM技术手段,并不适合长期保存和交付使用。事实上,到了2005年,CD已经无法在当时生产的个人电脑上读取。但那时,帕里特藏已经开始实施一项规模更大的计划,目的在于实现资料的数字化改造、保存、存储和传送。2002年,作为学校图书馆数字化工程的一部分,帕里特藏得到了哈佛大学25万美元的资助。借助于这笔经费,我们启动了一个项目,旨在通过资料的数字化,一方面解决其保存问题,另一方面创建基于Web的数据库,以此作为发现材料的手段并同时提供数字化内容的平台。资料获取或访问曾经是并依然是优先考虑的事项,因为帕里资料的保存非常完好而且稳定;几乎可以肯定的是,其记录格式即便在当前的数字格式过时之后,仍然可以长期使用。

  尽管得到了哈佛大学的慷慨资助,但我们只能对其中的一小部分档案进行数字化处理,这一点我们很早就意识到了。因此,依据洛德的《故事的歌手》一书中引用或述及的歌诗和文本,我们对资料作出了选择。最终,将洛德引证的每一条目和大量的其他文本都进行了数字化,总共约有四百首歌诗及其他文本。这个集成大约纳入了六百三十个铝盘和二十五个卷轴磁带,以及将近一万页手稿或机打文档,呈现了洛德在20世纪50年代的田野工作。

  该项目获得成功的关键在于——我们能够利用哈佛大学的专用 IT 系统来存储和交付数字资料。我们所有的数字资料都以哈佛大学的数字存储库服务(Digital Repository Service)来加以保存;这是一种集中式的存储服务,为条目的存放和长期维护提供了保障。维护则包括在标准更改时创建备份并将数字文件转换为更新的格式。这有一个巨大的好处。因为文件格式的过时不可避免,这是数字档案面临的最大挑战之一。数字对象通过两个平台中的一个来进行传送:文本通过页面传递服务来提供,而音频则通过流媒体传递服务来提供。

  接下来,我想谈谈文件格式问题。就每一个数字化条目而言,我们都创建了一个“归档主文件”和一个“可传送的”文件。归档主文件可以使用未压缩文件格式来捕获:文本图像的TIFF文件和音频的WAV文件;压缩格式则用于可传送的结果:文本的 JPEG文件和流音频的实时音频。此外,由于为每个单独的页面或碟面建立了单个文件,因此必须创建定义这些文件之间关系的元数据文件。我认为,在这种关联中有一个重点:将一个实体档案转化成一个虚拟的电子档案,往往需要档案管理员重新思考一个最基本的档案问题,即究竟什么才是档案对象。档案管理者习惯于应对实体对象,帕里特藏可以并已经按某些方式依据实体对象进行了编目,但有意义的内容单元当然是歌诗。我们的案例正是通过不同介质的许多非连续性实物对象来加以呈现的。数字化——以电子编码1和0——将所有的这些对象降解到单一的介质中,但也须非常仔细地映射这些生成中的数字文件之间的关系。

  现在让我谈谈我们的在线数据库及其创建。该数据库使用的是哈佛大学的第四代专用系统,即“模板化数据库”(Templated Database)系统,或简称TED。TED是一种基于可扩展标记语言(XML)的托管服务,可为需要大量定制的目录提供灵活的平台。[6] 在设计这个数据库时,我们从凯为其ProCite数据库开发的基本数据模式做起。然后,我们对此模式进行了改动,以便在XML环境中使用,这便引入了一系列的修改。尽管TED平台已非常灵活,即便在现有的数据库中也允许对其架构进行修改。但我们在最初设计时就力图做到超前思考。我们在几个领域中有所创建,尽管目前尚未使用,但这种努力在将来或会被证明是有用的。例如,允许我们按照一个给定条目的“文类”“主题”或“语言”来纳入数据。一旦模式就位,我们就可迁移由凯开发的数据库中的内容。这当然须清理一些数据,并将老的数据字段映射到新的数据字段中。TED系统有一个基于Web的界面,用于创建新的数据库记录;我们用这个界面为洛德在1950年和1951年完成的史诗歌搜集创建记录。这些材料没有包括在凯的数据库或索引之中,却构成洛德《故事的歌手》的显著之处,因此被纳入我们的数字化项目。

  到目前为止,我所说的都是在2002年得到哈佛大学校方资助的项目。我很乐意简要地谈谈另一个我们最近刚刚完成的项目;虽然规模小一点,但结果却振奋人心。这个数字化项目涉及750张照片,记录了帕里在20世纪30年代和洛德在20世纪50年代的田野作业。我已经展示了若干照片。大家可以在哈佛大学的“视觉信息访问通道”(Visual Information Access,VIA)目录中找到这个完整的专藏;通过搜寻帕里特藏便能检索整个图片集成。

  三  方法论的挑战与建设数字语料库的可行性途径 

  在目前所知的许多档案库中,帕里特藏以其包纳各种介质和格式的资料而堪称典型。我们面对的最大挑战之一便是寻找有效的途径和方法以整合这些不同的资料;正是从这个角度看,我认为,我们再次成为典型。当前,该特藏可以通过两个不同的平台进行访问和传送:TED数据库与VIA目录。我们希望在这些专藏之间建立起关联,例如,两个条目下记录的交叉链接。在这方面,我还想提及我的一个计划,即制作洛德《故事的歌手》第三版的电子版[7],以便充分利用我们所有的数字化专藏。按照我的打算,第三版当包括所有条目所引述的文本及其数字化录音和誊写的链接,以及与照片相关的链接。2012年11月,我有幸与《故事的歌手》中文版[8]译者尹虎彬教授讨论这个项目。我希望,这个第三版的电子版最终会成为研究帕里特藏的一个多语言平台。

  我想用剩下的时间来发展我的一些想法:帕里特藏的数字语料库乃至其他类似语料库,如何才能在将来获得可以提升的可能途径,从而为研究开辟新的道路。

  近年来,人们对地理信息系统(GIS)及其数据应用的兴趣激增。和许多民俗学者一样,帕里对于追踪传统资料的地理流布或与地理信息高度相关的其他现象有着浓厚的兴趣,例如,音乐形式或歌唱风格的区域模式,或者方言变体对程式化范型(formulaic patterns)的影响;而将GIS数据整合到帕里数据库中,便会形成巨大的发展潜力。使用哈佛大学的“地理空间图书馆”(Geospatial Library)或类似平台,一个数据集(data set)很容易与其他若干数据集形成并合;比如,研究者由此可探讨特定歌诗的分布与政治、民族、宗教、语言的边界之间的关系。

  显而易见的是,丰富既有的帕里数据库还有另一种进路,那就是为每一条记录纳入一个连续的主题或母题。当然,这便要求发展或者改编一系列标准化的史诗母题表;而这种系统化的尝试从未在帕里资料中展开。在理想的情况下,帕里资料的标准研制当与国际上公认的标准相匹配,这样才能开展跨语料库的比较研究。

  然而,最迫切的诉求乃是创建一个可以全面检索的文本语料库,并将这些可检索的文本与相应的音频录音进行同步化处理。到目前为止,帕里资料的数字化仅仅意味着对手稿或打字稿页进行拍照。就如何从这些图像中创建文本文件而言,我们目前依然缺乏必备的资源。即使光学字符识别技术(OCR)最终发展成熟,足以对手稿进行光学扫描,但仍然需要大量的人工来检查和校正生成中的文本文件。由于这些手稿是公开的,众包方式的某些版本似乎最有希望成为创建可检索文本的一种途径。

  我想,一个全面的、可检索的文本语料库的优点,对在场的每一个人来说都是不言而喻的。这样的一个集成将让研究者能够在文本语料库中追踪各种母题,研究程式化句法,进而更好地理解歌手的“个人习语”、地区的“方言”及诗歌“语言”之于作为整体的传统之间的关系,正如约翰·迈尔斯·弗里(John Miles Foley)所描述的那样。这些例子都构成使用文本库方能解决的研究问题。但是,我想建议,如果这样的一个文本库可以与其他介质中的资料整合起来——换言之,如果可以将帕里资料的数字化文本与数字化的音频记录交相同步,或映射到数字化的录音之中——不仅会扩大各种潜在的问题研究范围,而且这些资料也有可能会对距离口头传统研究较远的其他领域产生重要影响。

  由此,我首先想到的是认知科学和作为语言学分支学科的话语分析。这两个领域共享一个关注点,即语言使用方式和反映思维运作的其他交流行为。在这两个领域中,基于语料库的研究事业已然形成;事实上,话语分析几乎是以语料库分析作为其主要方法论来加以界定的。此外,将交流作为一种“多模态”(multimodal)活动来进行探究的兴趣也在晚近以来的这两个领域倍增;也就是说,一项活动在不同种类的信号之间所卷入的互动,例如,语词和手势。这就是帕里特藏之类的档案或将发挥重大影响的潜力所在——对于任何多媒体档案,尤其是藏有大量视频的档案来说,也同样如此。当若干文本语料库与音频、视频记录整合为一体时,研究人员便能研究口头现象与非口头现象之间的互动作用。在过去的几年中,我与我的同事安娜·伯尼法兹(Anna Bonifazi)合作,对帕里特藏中的一首歌诗进行了此类研究。我们目前已发表的两篇论文提供了一些新见解,这些来自史诗演唱多模态调研的观察,既有审美价值——与歌手的艺术意味相联系,也有认知价值——揭示了歌手的思维运作,而后者更为重要。

  像帕里特藏这样的档案库存有海量的语料,研究思维运作规律的科学家可能会对此有浓厚的兴趣。在许多重要的方面,这些语料与认知科学家和话语分析家通常研究的材料都有所不同。当科学家和语言学家在进行语料分析时,他们一般使用的是被称为“自然的”或者交谈的言语,而帕里特藏主要是艺术性言语之库——那就是歌诗。这种差异使得帕里的资料更为珍贵。口头史诗的艺术性言语是风格化的言语,因而能够从整体上展示语言风格的某些特征,也因此更容易被观察到。[9] 进一步讲,唱诵一首传统的歌诗会唤起对既有知识的记忆和演述中的再创作,这样的演唱录音便为研究长期和当下记忆之间的关系提供了特有的景遇。[10] 最后,艺术性言语熔铸着重要的审美维度。因此,一个如我所描述的多媒体语料库,对于人文学术和科学交界地带正在出现的“经验主义美学”(empirical aesthetics)也会产生深刻的影响。[11]

  作为如何从技术角度来实现这样一个语料库的模型,我想提及国际电视新闻讯景档案库[12],一个由红母鸡实验室[13]研究小组的调查人员开发的大型电视新闻节目数据集。我对帕里资料与认知科学潜在相关性的思考,主要来自与其中一位研究者克里斯托巴尔·帕根·卡诺瓦斯(Cristóbal Pagán Cánovas)的对话;2012年,他召集了一个名为 “认知科学与口头诗学”的研讨会。红母鸡实验室研究小组下载的新闻视频来自世界各地,并从相关新闻机构直接获取对应的新闻稿,或者通过他们自己的语音识别软件创建新闻誊录稿。一种算法在文稿与视频之间建立起同步链接,这便允许研究人员通过关键词来搜索播放内容。更重要的是,一种著录工具也已开发出来,研究人员能够藉此追踪具体的手势或主题,或特定的语法结构。换言之,国际电视新闻讯景档案库是研究多模态传播的理想工具。

  我认为,这也是一个好的模式,由此我们能够开发自己的若干语料库,以便最大限度地将其应用于我们的学科和其他学科。我们手中掌握着大量信息,可以揭示人类创造力和认知的基本问题。我们的任务便是找出充分利用这些信息的最佳途径。

  本译文系国家社会科学基金重大项目“中国少数民族口头传统专题数据库建设:口头传统元数据标准建设”(项目编号:16ZDA160)的延伸性成果。

 

  (戴维·埃尔默,哈佛大学古典学系;李斯颖,中国社会科学院民族文学研究所;巴莫曲布嫫,中国社会科学院民族文学研究所)

  (本文刊于《民族文学研究》2018年第2期,注释请参见纸质版原刊。)

文章来源:《民族文学研究》编辑部

凡因学术公益活动转载本网文章,请自觉注明
“转引自中国民族文学网http://iel.cass.cn)”。