分类 杂项 下的文章

GPT输入和输出的长度都是有限制的,OPENAI的GPT4是8K,azure的是32K

这个长度限制要注意是指 输入的 prompt + 模型返回的。

调用接口的时候为了更准确的拆分长文本,需要计算token数量,但是不同版本的GPT用的编码方式不一样,所以计算token数量的方式也是不一样的。官方有python的库可以用,但其它语言的就需要找到合适的。

不同版本用的编码方式不一样:
cl100k_base:gpt-4, gpt-3.5-turbo, text-embedding-ada-002
p50k_base:Codex models, text-davinci-002, text-davinci-003
r50k_base (or gpt2):GPT-3 models like davinci

官方GPT-3的在线计算工具
https://platform.openai.com/tokenizer
Tiktokenizer 在线工具
https://tiktokenizer.vercel.app/

gpt-tokenizer 截图,点击这里访问
gpt-tokenizer

支持cl100k_base and p50k_base 编码的库(也就是GPT-4和GPT-3.5)
Javascript:
https://github.com/niieani/gpt-tokenizer
https://www.npmjs.com/package/gpt-tokenizer

Python
https://github.com/openai/tiktoken

Java
https://github.com/knuddelsgmbh/jtokkit

.NET/C#
https://github.com/dmitry-brazhenko/SharpToken
https://github.com/aiqinxuancai/TiktokenSharp

下面方法其实是调用mount_ntfs命令实现的,但Ventura开始,这个命令被苹果删除了。
劝大家尽量用exfat吧,别折腾了。


我移动盘主要是因为需要在其它设备上操作,所以用ntfs兼容性是最好的。
由于版权问题,在macos写操作ntfs是一个折腾的事情,系统升级为monterey后之前用的开源工具已经不能使用。
而且之前通过fstab的方式也不管用。只能用下面的方式手动挂载:

1、先在 磁盘工具 中把对应的盘 卸载
2、打开命令行工具
diskutil list
找到对应磁盘的分区,把最右边那一列的名称复制一下。
sudo mkdir /Volumes/oDisk
创建目录,名称随意和下面的对应起来就可以了。
sudo mount -t ntfs -o rw,auto,nobrowse /dev/disk2s3 /Volumes/oDisk
上面的disk2s3换成你自己的。

截屏2022-01-03 下午4.29.19.png

3、在finder中前往文件夹 /Volumes/oDisk

4、enjoy it

另外,如果发现有的文件显示是灰色,不能访问可以通过下面方法解决
xattr -d -r com.apple.FinderInfo /Volumes/oDisk/*