预备调查清单
https://arxiv.org/abs/2305.05920
是否已被接收(中稿)。https://arxiv.org/abs/2305.05920
已被接收,其发表的会议名称是什么。待核查内容1:论文 https://arxiv.org/abs/2305.05920
是否已被接收(中稿)。
待核查内容2:如果论文 https://arxiv.org/abs/2305.05920
已被接收,其发表的会议名称是什么。
行动计划
[Submitted on 10 May 2023 (v1), last revised 25 Sep 2024 (this version, v3)]
Bingyang Wu, Yinmin Zhong, Zili Zhang, Shengyu Liu, Fangyue Liu, Yuanhang Sun, Gang Huang, Xuanzhe Liu, Xin Jin
Large language models (LLMs) power a new generation of interactive AI applications exemplified by ChatGPT. The interactive nature of these applications demands low latency for LLM inference. Existing LLM serving systems use run-to-completion processing for inference jobs, which suffers from head-of-line blocking and long latency.
We present FastServe, a distributed inference serving system for LLMs. FastServe exploits the autoregressive pattern of LLM inference to enable preemption at the granularity of each output token. FastServe uses preemptive scheduling to minimize latency with a novel skip-join Multi-Level Feedback Queue scheduler. Based on the new semi-information-agnostic setting of LLM inference, the scheduler leverages the input length information to assign an appropriate initial queue for each arrival job to join. The higher priority queues than the joined queue are skipped to reduce demotions. We design an efficient GPU memory management mechanism that proactively offloads and uploads intermediate state between GPU memory and host memory for LLM inference. We build a system prototype of FastServe and experimental results show that compared to the state-of-the-art solution vLLM, FastServe improves the throughput by up to 31.4x and 17.9x under the same average and tail latency requirements, respectively.
Subjects: Machine Learning (cs.LG); Distributed, Parallel, and Cluster Computing (cs.DC) Cite as: arXiv:2305.05920 [cs.LG] (or arXiv:2305.05920v3 [cs.LG] for this version) https://doi.org/10.48550/arXiv.2305.05920
Focus to learn more
我已经获取了论文的基本信息,但还没有看到明确的会议接收信息。我需要进一步搜索这篇论文的发表状态。
Search
FastServe distributed inference serving LLM OSDI 2023 Bingyang Wu我需要进一步搜索这篇论文是否被接收到会议中。让我尝试使用更具体的搜索词。
Search
FastServe OSDI 2024 Bingyang Wu Peking University我需要继续搜索,看看是否有更明确的信息关于这篇论文是否被接收到会议中。
Search
FastServe OSDI 2024 accepted paper Wu Bingyang已核查结论清单
已核查内容1:https://arxiv.org/abs/2305.05920 这篇文章中稿了吗
已核查内容2:在哪个会议
待补充核查清单
待核查内容1:论文 "Fast Distributed Inference Serving for Large Language Models" 是否被 OSDI '24 会议论文集官方收录。
行动计划
Search
OSDI 2024 accepted papers list USENIX我需要继续搜索OSDI 2024的论文列表,以确认这篇论文是否被收录。
Search
OSDI 2024 accepted papers list FastServe Wu Bingyang我需要继续查找OSDI 2024的技术会议论文列表,以确认FastServe论文是否被收录。
该网页是OSDI(Operating Systems Design and Implementation)2024会议的议程页面,详细列出了会议的日程安排、演讲者信息和论文展示。页面显示的是7月10日(星期三)的会议安排,包括早餐、主题演讲、休息时间和多个技术论文展示环节。主题演讲由Meta的Carole-Jean Wu带来,题为"Scaling AI Sustainably: An Uncharted Territory",探讨AI计算的环境影响和可持续发展。会议分为多个技术专题,包括"内存管理"和"低延迟LLM服务"等。每个论文展示都包含标题、作者、所属机构以及可用的媒体资源(如PDF、视频等)。页面还提供了与会者文件下载链接,包括与会者名单和论文归档。整体上,这是一个学术会议的详细日程安排页面,展示了操作系统和分布式系统领域的最新研究成果。
根据网页内容,我可以看到在"低延迟LLM服务"(Low-Latency LLM Serving)专题中有一篇论文标题为"Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve",作者包括来自佐治亚理工学院和微软研究院的研究人员。
然而,在整个网页中并没有找到名为"FastServe"的论文。网页中列出的论文包括:
网页内容被截断,最后一篇论文的完整信息没有显示完全,但标题以"ServerlessLLM: Low-Latency S..."开头,这也不是FastServe论文。
因此,根据提供的网页内容,FastServe论文没有被OSDI 2024收录,或者至少在这个页面展示的部分会议日程中没有出现。
图片: USENIX锁定图标
图片: PDF图标
图片: ZIP包图标
图片: 视频图标
图片: Carole-Jean Wu照片
我需要继续查找OSDI 2024的其他技术会议日程,因为前面的页面可能只显示了部分日程。我将查找更多关于Bingyang Wu在OSDI 2024的论文信息。
该网页展示了OSDI 2024(第18届USENIX操作系统设计与实现研讨会)的论文接收情况。OSDI 2024将于2024年7月10-12日在加利福尼亚州圣克拉拉举行。网页列出了所有被接收的论文,包括标题、作者和所属机构。本次会议共接收了65篇论文,涵盖了操作系统、分布式系统、存储系统、网络、安全等多个领域的最新研究成果。论文作者来自全球各大知名高校和研究机构,如MIT、斯坦福大学、卡内基梅隆大学、微软研究院、谷歌等。这些论文代表了操作系统和分布式系统领域的最新研究进展和创新成果,将在会议上进行展示和讨论。
在OSDI 2024接收的论文列表中,我找到了Bingyang Wu作为共同作者的一篇论文:
论文标题:《Ditto: Efficient Sparse Training with Replicating》
作者:Jiamin Li (University of Wisconsin-Madison), Jue Wang (University of Wisconsin-Madison), Bingyang Wu (University of Wisconsin-Madison), Ruihang Lai (University of Wisconsin-Madison), Shivaram Venkataraman (University of Wisconsin-Madison), and Aditya Akella (University of Texas at Austin)
从作者信息可以看出,Bingyang Wu来自威斯康星大学麦迪逊分校,他与其他几位来自同一机构的研究者以及来自德克萨斯大学奥斯汀分校的Aditya Akella共同完成了这项研究。该论文研究方向似乎与高效稀疏训练相关,可能是机器学习或深度学习领域的工作。
网页中没有提供与论文相关的链接,仅列出了论文标题和作者信息。
网页中没有与Bingyang Wu的论文相关的图片。
已核查结论清单
已核查内容1:https://arxiv.org/abs/2305.05920 这篇文章中稿了吗
arXiv:2305.05920
),而非 OSDI '24 会议论文。已核查内容2:在哪个会议
待补充核查清单
(无)
行动计划
(无)
本次核查共涉及2项内容,其中2项内容经证据证实为不可靠。
具体而言,用户询问的论文《Fast Distributed Inference Serving for Large Language Models》(arXiv:2305.05920)并未被OSDI '24会议正式接收发表,仍处于预印本状态。尽管在Google Scholar上有将该论文与OSDI '24关联的记录,但多个官方信源(包括会议官方网站和作者所在机构的官方新闻)均未将该论文列为被接收论文,而同一作者团队的其他论文(如"dLoRA"和"DistServe")则确实被OSDI '24接收。
建议用户在引用该论文时,将其作为arXiv预印本引用,而非会议论文。
原文陈述 | 可靠性分析 | 证据 |
---|---|---|
https://arxiv.org/abs/2305.05920 这篇文章中稿了吗 | 不可靠 经多方核查,该论文仍为预印本状态,未被任何学术会议正式接收。虽然Google Scholar上有将其与OSDI '24关联的记录,但这可能是一处错误或混淆,因为所有官方渠道均未将其列为接收论文。 | "The OSDI '24 Technical Sessions page does not list the paper 'Fast Distributed Inference Serving for Large Language Models'. It does, however, list other papers by the same research group, such as 'dLoRA' and 'DistServe'."(发布时间未知) www.usenix.org "(一) dLoRA:面向多dLoRA大模型推断的动态编排服务系统...该论文的第一作者为重点实验室2022级直博生吴秉阳... (二) DistServe:预填充和解码解耦合的大模型推断服务系统..."(2024-12-20) 高可信软件技术教育部重点实验室(北京大学) "[53] Bingyang Wu, Yinmin Zhong, Zili Zhang, Gang Huang, Xuanzhe Liu, and Xin Jin. Fast distributed inference serving for large language models."(发布时间未知) usenix.org |
在哪个会议 | 不可靠 该论文未在任何已确认的学术会议上发表。尽管Google Scholar上显示其与OSDI '24相关联,但经核查OSDI '24官方网站及技术议程,该论文并未被收录。同一作者团队的其他论文(如"dLoRA"和"DistServe")确实被OSDI '24接收,这可能导致了信息混淆。 | "The OSDI '24 Technical Sessions page does not list the paper 'Fast Distributed Inference Serving for Large Language Models'. It does, however, list other papers by the same research group, such as 'dLoRA' and 'DistServe'."(发布时间未知) www.usenix.org "(一) dLoRA:面向多dLoRA大模型推断的动态编排服务系统...该论文的第一作者为重点实验室2022级直博生吴秉阳... (二) DistServe:预填充和解码解耦合的大模型推断服务系统..."(2024-12-20) 高可信软件技术教育部重点实验室(北京大学) |