跳转至

20250206 - AI编程革命:代码的未来,由AI重塑! - 简单有效的将音频转成各式良好对话文本的方案

  • 分类: Clippings
  • 创建: 2025-02-06
  • 标签: AI, 编程, 音频, 文稿, Gemini, Claude, 整理

简单有效的将音频转成各式良好对话文本的方案

摘要 (Summary)

这篇文章介绍了如何使用 Google 的 AI Studio 和 Claude AI 整理 Twitter Space 音频的文稿,详细描述了将音频转成文本的步骤、纠正错别字和去掉口癖的方法,以及使用合适的提示词以确保生成高质量的文本。

要点 (Key Facts)

  1. 使用 Google AI Studio 中的 Gemini 1.5 Pro 将音频转成文本。
  2. 生成的文本需按照发言人整理。
  3. 使用 Claude AI 进行文本的纠正和整理。
  4. 提示词中需包含“不要删减内容”的关键字。

正文 (Content)

昨天我花了点时间整理了一下 Twitter Space 音频的文稿:《AI编程革命:代码的未来,由AI重塑!》https://baoyu.io/blog/ai-programming-revolution

整个过程很简单有效,不仅把发言人和内容对应上了,还去掉了口癖、纠正了错别字,输出成了阅读友好的Markdown格式。也不要本机运行 Whisper 这样的模型。

前提条件:

  • 你能访问 Google 的 AI Studio https://aistudio.google.com/
  • 你能使用 Claude AI,其他 AI 模型( 比如Gemini, GPT-4o, o1 )也可以,但是效果可能要差一点

第一步:在 Google AI Studio 中用 Gemini 1.5 Pro 将音频转成文本,并且要求按照发言人生成会话。

把音频文件上传,并输入提示词,让它生成文本,并对应发言人,提示词参考:

请将下面对 AI 编程的讨论音频转成Transcript,要按照Speaker将音频内容完整整理出来,主要参与人:XXX, YYY, ZZZ, …

如果一次输出不完,就一直输入 continue 让它继续,直到生成完成为止。

第二步:将 Gemini 生成的文稿,发给 Claude,让其纠正错别字,去掉口癖,重新分段。

如果内容没有超过 1 小时,一般 Claude 可以一次性处理,如果比较长可能要分成几块来处理。

提示词比较简单,但是一定要加上“不要删减内容”关键字,否则 Claude 可能偷懒给你删减摘要内容:

请把下面的语音转文本对话文稿重新整理,纠正其中错别字,去掉口癖,保持原有对话格式,适当分段,但是不要删减内容:

很长的内容 Claude 无法一次性输出完整,需要不停的输入“continue”继续生成,直到生成完整。

如果有些额外要求也可以加到提示词中,比如把文稿中的 OnePro 统一换成 o1 Pro 等等。

可以看到整理后的结果还是挺不错的: