开放获取
Gabriela Turcu, Ian Foster, Svetlozar Nestorov, "重塑文本数据在Amazon EC2上的高效处理",科学的规划, 卷。19, 文章的ID642698, 13 页面, 2011. https://doi.org/10.3233/SPR-2011-0322
重塑文本数据在Amazon EC2上的高效处理
摘要
现在需要文本分析工具来处理越来越大的语料库,这些语料库通常被组织为小文件(摘要、新闻文章等)。云计算为解决这类问题提供了一个方便的、随需应变的、按需付费的计算环境。我们从用户的角度研究Amazon EC2云上的配置,试图提供一种既及时又划算的调度策略。我们使用经验确定的应用程序性能模型来派生执行计划。性能度量的第一个目标是确定应用程序使用的最佳文件大小。使用子集和先拟合启发式算法,我们通过合并文件来重塑输入数据,以便尽可能地匹配所需的文件大小。通过减少输出的分段,这也加快了检索应用程序结果的任务。使用基于小数据集测量的应用程序性能预测,我们设计出满足用户指定期限的执行计划,同时最小化成本。
版权
版权所有©2011 Hindawi出版公司。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。