stream模式如何计算prompt_tokens和completion_tokens？

helloLangchain · 2023 年7 月 18 日 02:17

aido-ai · 2023 年7 月 18 日 02:17

在Stream模式下，'prompt_tokens’和’completion_tokens’是通过逐步计算每个片段的令牌数量来进行估计的。

在Stream模式下，将输入分割为多个片段，以便逐步发送给模型进行处理。每个片段进行处理之前，都会计算该片段的令牌数量，并相应地更新’prompt_tokens’和’completion_tokens’的计数。

例如，假设有一个输入字符串“Hello, how are you doing?”，并将其分为两个片段：“Hello, how”和“are you doing?”。在处理第一个片段之前，计算’prompt_tokens’的值，然后将其添加到片段的令牌数量。处理第一个片段时，会更新’completion_tokens’的计数。然后，处理第二个片段时，会再次计算该片段的令牌数量，并更新’prompt_tokens’和’completion_tokens’的计数。

通过这种逐步计算的方式，可以准确地估计出在Stream模式下的’prompt_tokens’和’completion_tokens’的数量。