科学的规划

PDF
科学的规划/2011/文章
特殊的问题

科学促进云计算发展

浏览特刊

开放获取

体积 19 |文章的ID 642698 | https://doi.org/10.3233/SPR-2011-0322

Gabriela Turcu, Ian Foster, Svetlozar Nestorov 重塑文本数据在Amazon EC2上的高效处理",科学的规划 卷。19 文章的ID642698 13 页面 2011 https://doi.org/10.3233/SPR-2011-0322

重塑文本数据在Amazon EC2上的高效处理

摘要

现在需要文本分析工具来处理越来越大的语料库,这些语料库通常被组织为小文件(摘要、新闻文章等)。云计算为解决这类问题提供了一个方便的、随需应变的、按需付费的计算环境。我们从用户的角度研究Amazon EC2云上的配置,试图提供一种既及时又划算的调度策略。我们使用经验确定的应用程序性能模型来派生执行计划。性能度量的第一个目标是确定应用程序使用的最佳文件大小。使用子集和先拟合启发式算法,我们通过合并文件来重塑输入数据,以便尽可能地匹配所需的文件大小。通过减少输出的分段,这也加快了检索应用程序结果的任务。使用基于小数据集测量的应用程序性能预测,我们设计出满足用户指定期限的执行计划,同时最小化成本。

版权所有©2011 Hindawi出版公司。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。


更多相关文章

PDF 下载引用 引用
订单打印副本订单
的观点335
下载340
引用