Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

明确标注所有AI生成内容 #29

Open
dringsim opened this issue Jan 22, 2025 · 15 comments
Open

明确标注所有AI生成内容 #29

dringsim opened this issue Jan 22, 2025 · 15 comments

Comments

@dringsim
Copy link

dringsim commented Jan 22, 2025

请对所有由AI生成的内容(包括但不限于文章摘要)予以明确标注,以避免对读者造成误导。仅在主页等部分位置进行说明是远远不够的。

@yunwei37
Copy link
Collaborator

嗯,我觉得非常合理

你会觉得把 ai 生成的摘要在更多的地方隐藏起来更好嘛

@yunwei37
Copy link
Collaborator

目前来看,大致只有摘要和元信息是 ai 生成的(我会尽可能确保保存的内容不是

@yunwei37
Copy link
Collaborator

如果能说明一下,你觉得哪些具体的条目可能会带来误导作为例子,就非常感谢啦

@dringsim
Copy link
Author

读者可能从其他人分享的链接进入网站,此时可能不会访问主页
例如在 https://digital.transchinese.org/%E5%AD%A6%E6%9C%AF%E6%96%87%E7%8C%AE/%E4%BA%BA%E6%96%87%E7%A4%BE%E7%A7%91/ 板块完全见不到与AI相关的声明

这个网站使用的是哪一款LLM产品?如果不明确标注AI生成内容,使得读者有可能将此等内容看作完全由人类创作,就会违反OpenAI的Sharing & publication policy

@yunwei37
Copy link
Collaborator

yunwei37 commented Jan 23, 2025

这个网页底下已经有声明了(你可能没往下看,因为太长了),以及目前使用的主要是 openai,之后可能会切换到其他的开源模型?

@yunwei37
Copy link
Collaborator

yunwei37 commented Jan 23, 2025

目录及摘要为自动生成,仅供索引和参考,请修改 .github/ 目录下的对应脚本、模板或对应文件以更正。

大概目录页是这样,每个摘要与元信息的部分也均有明确标注

@yunwei37
Copy link
Collaborator

yunwei37 commented Jan 23, 2025

以及,人工智能或者其他算法/程序的作用远远不止生成摘要,包括搜索引擎爬取、网页清洗/排版与提取内容、内容分类等许多方面,也存在多个模型(例如 https://jina.ai/reader/ ),也许有个独立的文档描述会比较好?

或者可以标注,任何非明确标注由人类完成的步骤,均为完全由人工智能算法实现,无人类辅助,部分博客内容由人类辅助完成?

@yunwei37
Copy link
Collaborator

或者我在想另外一种标注方式是

除档案馆保存的档案主体内容之外,其他信息(摘要、目录、元信息)均可视为由自动化算法/AI 采集、整理、分析。我们会采取措施尽可能防止纯 AI 生成的内容污染档案馆数据,详情请查看xxx

@yunwei37
Copy link
Collaborator

不过这样说好像也不太对,也不能忽视有些内容确实是人写的,比如

https://digital.transchinese.org/%E7%A4%BE%E7%BE%A4%E5%8F%8ANGO%E6%96%87%E4%BB%B6/%E6%89%8B%E5%86%8C%E6%8C%87%E5%8D%97/%E5%97%93%E9%9F%B3%E8%AE%AD%E7%BB%83%E6%8C%87%E5%8D%97_page/

也需要明确感谢对应作者的帮助,包括还有其他一些材料是别人提交的

@yunwei37
Copy link
Collaborator

其实我也想明确表达所有档案尽可能都是非 ai 生成或者人工参与的,并且我们希望防止低质量内容污染数据库,但是我也不确定怎么说比较好(无法对于采集的内容做保证,也无法100%检测,ai辅助完成的也不太好说x

@yunwei37
Copy link
Collaborator

有什么更好的标注建议嘛(qwq

@dringsim
Copy link
Author

dringsim commented Jan 26, 2025

目录及摘要为自动生成

感觉还是不够具体,应该说明哪些内容是由LLM生成的(目录也属于这一类吗?🤔)

请修改 .github/ 目录下的对应脚本、模板或对应文件以更正。

这是说人类可以参与编辑吗,那么人类/AI所充当的角色应该也要进一步说明🤔

OpenAI的Sharing & publication policy提到:

People should not represent API-generated content as being wholly generated by a human or wholly generated by an AI, and it is a human who must take ultimate responsibility for the content being published.

@yunwei37
Copy link
Collaborator

在本 org 下的所有档案 repo 中,我们使用统一的框架来实现档案馆收集、存储、存档、分析、展示功能,这个框架所有的代码内容均不在此 repo 和 org 中,例如

https://github.com/yunwei37/scripts

和其他的一些项目。我接下来计划将框架本身作为单独的开源项目在其他组织下发布,给许多个不仅限于本 org 的项目使用,到时候也会有一个完整的文档来说明这个框架本身是如何工作的,包括可以认为 llm 和别的 ai 算法(例如传统的 nlp,图像提取与图像生成),以及其他算法(向量搜索、关联与推荐内容)参与了许多内容的编辑过程,例如搜索与下载文件、对一部分目录和文件名的重命名,对文件的组织(比如说把某个文件放在某个目录),对网页内容的清洗、分类、评估(判断内容质量,以及判断是否有害,是否 r18 色情甚至不合法),对内容总结、对总结的进一步整理分析(例如分析所有内容生成一个完整的分析内容草稿,生成代码或方案进行量化分析以生成报告)来指导下一次的档案工作。工作流程、框架本身的构造与选择,使用的模型、模型供应商(不仅限于 oai,最近用 oai 只是因为我的卡还没到货以及和 oai 给我免费白嫖 token)、模型之外的算法和自动化工具都会随时进行变化。

总体来说,这个框架的目标是使用 ai/算法自动化和最少但必要的的人类协同参与过程,来完成几乎的档案馆、知识库、内容再生产相关的工作。

我不认为所有的内容均可以在一个指示信息中提示出来,提示出来也会带有大量的误导性。框架代码本身是开源的,在对应的内容页面提供链接指向框架的说明和文档,也许会更清晰和详细?

@yunwei37
Copy link
Collaborator

yunwei37 commented Jan 26, 2025

从价值观来看,我充分认同并且认为我们应当遵守这一点,即使使用的不是 oai 的模型(以后应该会很少使用 oai 的模型,因为性价比不高而且中文亚文化质量很差

People should not represent API-generated content as being wholly generated by a human or wholly generated by an AI, and it is a human who must take ultimate responsibility for the content being published.

@yunwei37
Copy link
Collaborator

以及,为了避免处理过程中出现幻觉或误差,我认为另外一个可能必要的原则是:

所有存档项目必须来自真实世界的高价值或人类生成的内容(尽可能非纯 ai 生成的低价值信息),每一步均可溯源,可复现。例如记录在何时进行了什么样的搜索,搜索结果如何,是如何处理的,处理结果是怎样的,最终收录的版本是什么类型等等。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants