-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
明确标注所有AI生成内容 #29
Comments
嗯,我觉得非常合理 你会觉得把 ai 生成的摘要在更多的地方隐藏起来更好嘛 |
目前来看,大致只有摘要和元信息是 ai 生成的(我会尽可能确保保存的内容不是 |
如果能说明一下,你觉得哪些具体的条目可能会带来误导作为例子,就非常感谢啦 |
读者可能从其他人分享的链接进入网站,此时可能不会访问主页 这个网站使用的是哪一款LLM产品?如果不明确标注AI生成内容,使得读者有可能将此等内容看作完全由人类创作,就会违反OpenAI的Sharing & publication policy |
这个网页底下已经有声明了(你可能没往下看,因为太长了),以及目前使用的主要是 openai,之后可能会切换到其他的开源模型? |
大概目录页是这样,每个摘要与元信息的部分也均有明确标注 |
以及,人工智能或者其他算法/程序的作用远远不止生成摘要,包括搜索引擎爬取、网页清洗/排版与提取内容、内容分类等许多方面,也存在多个模型(例如 https://jina.ai/reader/ ),也许有个独立的文档描述会比较好? 或者可以标注,任何非明确标注由人类完成的步骤,均为完全由人工智能算法实现,无人类辅助,部分博客内容由人类辅助完成? |
或者我在想另外一种标注方式是
|
不过这样说好像也不太对,也不能忽视有些内容确实是人写的,比如 也需要明确感谢对应作者的帮助,包括还有其他一些材料是别人提交的 |
其实我也想明确表达所有档案尽可能都是非 ai 生成或者人工参与的,并且我们希望防止低质量内容污染数据库,但是我也不确定怎么说比较好(无法对于采集的内容做保证,也无法100%检测,ai辅助完成的也不太好说x |
有什么更好的标注建议嘛(qwq |
感觉还是不够具体,应该说明哪些内容是由LLM生成的(目录也属于这一类吗?🤔)
这是说人类可以参与编辑吗,那么人类/AI所充当的角色应该也要进一步说明🤔 OpenAI的Sharing & publication policy提到:
|
在本 org 下的所有档案 repo 中,我们使用统一的框架来实现档案馆收集、存储、存档、分析、展示功能,这个框架所有的代码内容均不在此 repo 和 org 中,例如 https://github.com/yunwei37/scripts 和其他的一些项目。我接下来计划将框架本身作为单独的开源项目在其他组织下发布,给许多个不仅限于本 org 的项目使用,到时候也会有一个完整的文档来说明这个框架本身是如何工作的,包括可以认为 llm 和别的 ai 算法(例如传统的 nlp,图像提取与图像生成),以及其他算法(向量搜索、关联与推荐内容)参与了许多内容的编辑过程,例如搜索与下载文件、对一部分目录和文件名的重命名,对文件的组织(比如说把某个文件放在某个目录),对网页内容的清洗、分类、评估(判断内容质量,以及判断是否有害,是否 r18 色情甚至不合法),对内容总结、对总结的进一步整理分析(例如分析所有内容生成一个完整的分析内容草稿,生成代码或方案进行量化分析以生成报告)来指导下一次的档案工作。工作流程、框架本身的构造与选择,使用的模型、模型供应商(不仅限于 oai,最近用 oai 只是因为我的卡还没到货以及和 oai 给我免费白嫖 token)、模型之外的算法和自动化工具都会随时进行变化。 总体来说,这个框架的目标是使用 ai/算法自动化和最少但必要的的人类协同参与过程,来完成几乎的档案馆、知识库、内容再生产相关的工作。 我不认为所有的内容均可以在一个指示信息中提示出来,提示出来也会带有大量的误导性。框架代码本身是开源的,在对应的内容页面提供链接指向框架的说明和文档,也许会更清晰和详细? |
从价值观来看,我充分认同并且认为我们应当遵守这一点,即使使用的不是 oai 的模型(以后应该会很少使用 oai 的模型,因为性价比不高而且中文亚文化质量很差
|
以及,为了避免处理过程中出现幻觉或误差,我认为另外一个可能必要的原则是: 所有存档项目必须来自真实世界的高价值或人类生成的内容(尽可能非纯 ai 生成的低价值信息),每一步均可溯源,可复现。例如记录在何时进行了什么样的搜索,搜索结果如何,是如何处理的,处理结果是怎样的,最终收录的版本是什么类型等等。 |
请对所有由AI生成的内容(包括但不限于文章摘要)予以明确标注,以避免对读者造成误导。仅在主页等部分位置进行说明是远远不够的。
The text was updated successfully, but these errors were encountered: