Skip to content

最新教程/文档列表


  • Gemini API兼容OpenAI接口:教你如何在兼容应用中免费配置使用

    Gemini 系列大模型或许是被低估的。无论在模型能力、免费额度,还是服务稳定性等方面,它都丝毫不逊色于其他主流模型。特别是其开发者后台 Google AI Studio,不仅界面友好,操作便捷,而且提供了非常慷慨的免费使用额度。正因如此,Gemini 已成为我目前主力使用的大模型。 值得一提的是,Gemini 还兼容 OpenAI 的 API 接口规范。这意味着,你可以在许多支持 OpenAI ...

  • 使用 LLM 大模型对字幕重新断句

    为了提升字幕断句的自然度和准确性,pyVideoTrans 从 v3.69 版本开始,引入了基于 LLM (大型语言模型) 的智能断句功能,旨在优化您的字幕处理体验。 背景:传统断句的局限 在 v3.68 及更早版本中,我们提供了一个“重新断句”功能。该功能在 faster-whisper、openai-whisper 或 deepgram 完成初步语音识别后,会调用阿里模型对已生成的字幕进行二次...

  • 想让AI听懂你的话?这篇“人话版”指南带你飞!

    踏入大语言模型(LLM)这个新奇的世界,感觉是不是有点小激动?无论是想让AI帮你写个朋友圈文案、翻译几句外语、解道数学题,还是鼓捣点代码,提示工程(Prompt Engineering) 这个词你可能已经听过,它就是你跟AI“好好说话”的艺术。 别担心,这篇指南(大概3000字,耐心点看哈)就是专门为你——刚接触AI,懂一点点编程或者完全不懂的小伙伴——量身定做的。目标只有一个:让你快速掌握怎么写...

  • 实战笔记:把海量商品数据“翻译”成 AI 能看懂的 Markdown 知识库

    最近在瞎鼓捣一件事儿:怎么把公司那堆庞杂的工业产品数据,变成 AI 能“吃”得懂的“粮食”,最终目标是搞个智能客服或者产品问答机器人。 手头的数据嘛,主要是两张表:一张是 product,存着 8000 多种商品 的基本信息;另一张是 prosn,记录了每个商品下的各种具体型号,合计大约300万个型号,每个型号还带着价格、重量、编号、一堆属性参数等等。 核心需求就是:用户随便问个型号,AI 得能麻...

  • Ubuntu 开发环境搭建实战:PostgreSQL + pgvector + 最新 Node.js

    前言 最近在 Ubuntu 上搭建MaxKB开发版本,需要用到 PostgreSQL 数据库、向量搜索能力(通过 pgvector 扩展)以及最新 Node.js 环境的项目。过程中遇到了一些典型的“坑”,但也找到了解决方法。为了巩固学习,也为了方便遇到类似问题的朋友,我把整个过程整理成了这篇笔记。希望它能帮你节省一些调试时间! 目标环境: 操作系统:Ubuntu (本文命令基于 APT 包管理器...

  • 搞定 FFmpeg 跨平台硬件加速:我的自动选择方案与踩坑实录

    搞定 FFmpeg 跨平台硬件加速:我的自动选择方案与踩坑实录 (含 Python 代码) 搞视频处理,FFmpeg 简直是绕不开的神器。但用着用着,性能就成了新瓶颈。想提速?硬件加速编码(比如用显卡搞 H.264/H.265)自然是首选。可接下来,一个让人头大的坎儿就来了:跨平台兼容性。 你想想: 操作系统有 Windows、Linux、macOS。 显卡有 NVIDIA、AMD、Intel,还...

  • GitHub 疑似主动屏蔽中国大陆 IP,访问形势骤变!

    各位开发者朋友们,今天可能要面对一个令人沮丧的现实。 过去,虽然直连 GitHub 网速感人,时有卡顿甚至某些地区无法访问,但这更多被认为是网络环境过滤的问题,国内并未彻底屏蔽GitHub访问。 然而,情况似乎从今天起发生了质的变化:大量用户反馈,GitHub 开始主动屏蔽来自中国大陆的 IP 地址。这意味着,如果你不使用科学上网工具,可能将彻底无法访问 GitHub 的大部分内容。 根据目前观察...

  • AI 编程:神助攻还是挖坑王?我的 AdminLTE 后台改造实战反思

    开篇聊几句 最近,“AI 要颠覆软件开发”、“90% 程序员要失业”这类论调传得沸沸扬扬,各种 AI 编程神器、IDE 插件也确实秀出了让人眼前一亮的肌肉。说实话,作为开发者,我既好奇又有点小激动,也想着能不能靠 AI 让开发效率“坐上火箭”。 正好,我最近接手一个活儿:把一套老掉牙的 CRM 后台系统(PHP 5 + CodeIgniter 3.1.10)升级到 PHP 7,并套上新版的 Adm...

  • FFmpeg 视频慢速播放:我的学习笔记与实用技巧

    各位跟视频打交道的朋友们! 有没有遇到过这种情况:想用 FFmpeg 把一个视频的播放速度调慢,比如放慢一半,方便看清楚里面的细节,或者跟着做点什么?又或者,你有一堆按顺序拍的图片,想把它们合成一个视频,但希望它播放得慢一点,而不是一闪而过? 我最近就在琢磨这些问题,发现 FFmpeg 处理起来还真有几个关键点,尤其是在设置速度和处理图片序列时。我翻了些 Reddit 上的讨论(比如这两个:怎么让...

  • 搞定 VitePress 博客分页:我的踩坑与实现之旅

    当初为啥选 VitePress 来搭我的个人网站和博客呢?其实不是一时兴起,主要是看中了它几个地方: 1. 顺手,好用: 之前用 VitePress 写过技术文档,对它的配置、Markdown 写法、Vue 组件支持还有那快得飞起的 HMR (热更新) 都挺熟的。用熟悉的东西,自然省心省力。 2. 既要写博客,也要放教程: 我的网站不光是零散的博客文章,还想系统地放一些教程系列(比如 Python...

  • 用 uv 轻松玩转 Python 项目:从安装到运行,一步到位!

    Python 是个神奇的编程语言,背后有无数好玩的开源项目,比如 AI 工具、视频处理脚本等等。不过对于很多非程序员来说,想从 GitHub 上下载这些项目并跑起来,最大的拦路虎就是“依赖管理”和“版本管理”。 什么 pip、pyenv、venv、poetry、conda……光听名字就头晕,更别提折腾半天还跑不通。好消息是,最近有个新工具叫 uv,它简单、快速、靠谱,特别适合小白用户。今天,我就带...

  • AI 编程心得:告别『全自动』的坑,我的『半指导』高效实践

    最近接手了个有点年头的 CodeIgniter 3 老项目,需要增加几个功能,例如招聘、考勤、出入账等。寻思着用 AI 辅助一下,结果捣鼓下来,我对怎么使唤 AI 编程有了点新想法,或者说,踩了些坑后的心得吧。 现在 AI 编程这么火,你要说你不用,好像都快跟不上时代了。但要说完全依赖那些 AI IDE(像 Cursor、Windsurf、Trae 这些)或者把整个项目都交给 AI 大包大揽,说实...

  • 在 Python 中轻松驾驭 Shell 命令:从入门到灵活应用(Windows 和 Linux 版)

    先聊聊为啥写这篇 如果你对 Python 3 有所了解,可能知道 subprocess 是跑 Shell 命令的好工具。它能让 Python 调用系统命令,功能强大。 但它选项多、知识点杂,管道、输入输出、错误处理、编码问题一大堆,经常让人用得稀里糊涂。很多时候,我们随便抄段代码,能跑就行,却不清楚为啥这么写、啥时候该换个方法。 今天,根据官方文档,我又重学了一遍 subprocess,争取掌握的...

  • FFmpeg 错误处理:如何从一堆废话中找到重点

    在使用 Python 的 subprocess 模块调用外部工具,尤其是 ffmpeg时,经常会碰到一个让人头疼的问题:一旦命令出错,抛出的 subprocess.CalledProcessError 异常会把标准错误输出(stderr)一股脑儿丢给你。这输出往往长得吓人,里面混杂着版本号、编译信息、配置参数等等,而真正有用的错误线索,可能就那么一两行,藏在这一大堆信息里找都找不着。 问题:FFm...

  • 英伟达 RTX 5090 装机后无法使用 GPU 加速?别急,这里有解决办法!

    很多喜欢本地部署 AI 项目的朋友,总是追着英伟达最新显卡跑。RTX 4090 刚出时,迫不及待换上,体验飞一般的算力。RTX 5090 发布后,又是一波抢购热潮。然而,装上 5090 后,悲剧出现了:程序跑不动 GPU 加速,速度慢得像乌龟,甚至直接报错崩溃,连启动都成问题! NVIDIA GeForce RTX 5070 Ti with CUDA capability sm120 is not...

  • 小红书开源的语音识别模型使用与整合包下载

    这款 ASR 模型已经集成到整合包中,可以在视频翻译软件(pyVideoTrans)中方便地使用。 整合包下载及模型说明 模型体积: AED 模型 (model.pth.tar): 4.35GB LLM 模型: 包含两个模型 小红书识别模型 (model.pth.tar):3.37GB Qwen2-7B 模型 (4个文件):合计 17GB 模型总计约 21GB。即使压缩成 7z 格式,体积仍然超过...

  • markdown简单入门教程

    John Gruber 是个超级有名的科技博主兼程序员,他的博客 Daring Fireball 在圈子里赫赫有名。他搞出 Markdown 的初衷特别简单:想要一种格式,既方便读,又好写,还能轻松变成网页(HTML)。结果呢,Markdown 就这么横空出世啦! --- Markdown 能干啥?解决啥烦恼? 生活中写东西时,总会碰到一些让人头疼的事儿,比如: - Word 太麻烦:想写篇小文章...

  • 提示词高手是怎么解锁 GPT-4o 画图新玩法的

    那些被大家封为“提示词高手”的大神,好像总能随手掏出让人眼前一亮的玩法。那么,他们到底有什么秘密武器呢?今天,我就化身一个自封的“提示词高手”,给你抖一抖这些“独家秘籍”,让你也能轻松玩转这个超有意思的技能! --- 一、提示词从哪儿来?四招帮你找到宝藏 想成为提示词高手,第一步当然是找到好玩的提示词。那这些灵感从哪儿来呢?我给你揭秘几个超实用的小路子: 1. 搜索引擎——简单粗暴,但有点看运气 ...

  • MCP是什么,有什么用,如何使用?

    AI 世界日新月异,“MCP”是个容易让人迷糊的术语。先把界限划清楚: - MCP 概念 1(多智能体协作):有时指“多智能体协作平台”(Multi-Agent Collaboration Platform),比如 AutoGen,让多个 AI 组队干活。很酷,但不是今天的重点。 - MCP 概念 2(Anthropic 协议):这是 Anthropic(Claude 的开发者)推出的正式标准,全...

  • 安装 Visual Studio Community 免费版,解决pip安装失败问题

    你可能听说过 Visual Studio,它被誉为“宇宙第一 IDE”(集成开发环境),功能非常强大。但同时,它也确实比较“庞大”。对于不是专门做 .NET 开发的朋友来说,通常不需要安装它。 但是!如果你经常需要在自己的 Windows 电脑上尝试运行一些开源的 AI 项目(比如基于 Python 的项目),那么安装 Visual Studio Community 就变得几乎是必需的了。这是因为...

  • AI也能听懂你:轻松学会写出超棒提示词

    - AI的回答驴唇不对马嘴? - 给你的内容乱七八糟? - 生成的东西太笼统,根本用不上? 别急,这些问题多半不是AI的锅,而是你给它的“提示词”(Prompt)还不够给力。 --- 提示词是个啥? 简单说,提示词就是你对AI说的话,告诉它“干啥”和“咋干”。一个厉害的提示词,通常有四个“法宝”: - 指令:你想让AI干啥? - 上下文:AI需要啥背景资料? - 输出格式:你想要啥样的结果? - ...

  • 一句简单的提示词,就能让大语言模型在翻译时更好地“意译”

    以前为了让大语言模型翻译得更好,我可是费尽心思,试过各种方法。一开始是先直译再意译,后来升级成直译、反思、再意译。效果确实有进步,但步骤也变得越来越复杂。 现在模型越来越聪明,我开始觉得没必要搞得那么麻烦,反而想试试“返璞归真”,找个更简单、更高效的提示词方法。 我发现,翻译结果有时候显得生硬,其实是因为任务本身定成了“翻译”。既然是“翻译”,模型就老老实实按字面意思来,尽量保留原文的格式和结构,...

  • FFmpeg 音视频格式详解,像美食家一样品味音视频

    > 提示:如果你的电脑已经安装了 FFmpeg,那么可以直接在命令行中使用。如果没有安装,可以下载预编译好的 FFmpeg 工具包。 例如,在 pyVideoTrans 的 Windows 预打包 FFmpeg 目录下,已经包含了 ffmpeg.exe 文件。 你可以进入该文件夹,然后在地址栏输入 cmd 并回车,这样就可以执行 ffmpeg 命令了。 例如,输入 ffmpeg -h 可以查看 F...

  • FFmpeg 进阶玩法:让音视频处理如虎添翼!

    你可能已经掌握了 FFmpeg 的一些基本操作,比如简单的格式转换或剪辑。但 FFmpeg 的能耐远不止于此!今天,我们就来解锁一些不那么常见、但在特定场景下能大显身手的“隐藏技能”,让你的音视频处理能力更上一层楼。 准备好了吗?让我们一起探索 FFmpeg 的更多可能性! 一、像指挥家一样调度音视频:玩转 -map 参数 想象一下,一个视频文件就像一个集装箱,里面可能装着画面(视频流)、声音(音...

  • 免费免代理本地白嫖 OpenAI 文字配音API服务

    GitHub有大神搞了个逆向项目ttsfm,通过逆向 openai.fm 实现了本地白嫖,只需要安装并启动该ttsfm,并将http://localhost:7000/v1 填写到视频翻译软件菜单--TTS设置-OpenAI TTS 的地址中,即可使用。 > 未来使用人数太多,OpenAI 扛不住白嫖的时候,肯定会失效,但至少目前还可用,想用的抓紧了。 下面讲下如何在本地安装并启动,你需要保证本地...

  • MP4 字幕嵌入完全指南

    --- 一、字幕类型解析 1. 硬字幕(烧录字幕) - 定义:字幕直接渲染到视频画面,成为图像的一部分。 - 特点: - 不可关闭,永久显示。 - 兼容性极高,任何设备均可播放。 - 样式(字体、颜色等)固定,无法调整。 - 适用场景: - 防盗版(如影视平台水印)。 - 低端设备(如老式电视)字幕显示。 2. 软字幕(内嵌字幕) - 定义:字幕以独立轨道封装于视频文件(如 MP4 的 movte...

  • 认识 Ollama:让大模型在你电脑上安家落户

    > "Get up and running with large language models locally." 想在自己的电脑上跑大模型?听起来是不是有点酷,但又担心配置太麻烦、硬件要求太高?别担心,Ollama 就是来帮你解决这个问题的! 自 2023 年 6 月诞生以来,Ollama 迅速蹿红,现在已经成了很多人在本地玩转大模型的首选神器。随着大家对数据隐私和边缘计算越来越关注,可以预见...

  • 告别命令行!给你的 Ollama 装上炫酷的可视化聊天界面 (两种简易部署方案)

    想让你的 Ollama 模型交互体验升级?告别冷冰冰的命令行,拥抱直观的可视化聊天界面吧!这篇教程就为你准备了两种简单易行的方法,让你轻松搞定 Ollama WebUI 的部署:一种是轻巧灵活的 Node.js 方案,另一种是省心省力的 Docker 方案。总有一款适合你! --- 方法一:轻巧灵活 Node.js 方案 这种方式稍微需要你动动手,但能让你更了解背后的运行机制,也比较轻量。 1. ...

  • 想在 Windows 上玩转 Ollama?看这篇就够了!(超详细图文教程)

    嘿,朋友!想不想在自己的 Windows 电脑上,不用联网也能跑各种酷炫的大语言模型(LLM)?那 Ollama 这个神器你可不能错过! 别担心自己是技术小白,这篇指南就是为你量身打造的。咱们会一步步带你搞定下载、安装、配置,还有怎么验证它是不是乖乖工作了。保证让你轻松上手,在本地畅玩 AI 大模型! 咱们要做啥?简单来说就这几步: 1. 去官网把它“请”回来 (下载安装包) 2. 给它安个家,顺...

  • Ollama 模型放哪儿?告别 C 盘焦虑,自定义存储位置超简单指南!

    玩 Ollama 爽是爽,可模型哗啦啦下回来,动不动就好几个 G,眼看 C 盘空间告急是不是特闹心?默认情况下,Ollama 这家伙确实喜欢把所有宝贝(也就是下载的模型)都塞到 C 盘(或者你的主目录),这对系统盘来说简直是“甜蜜的负担”。 别担心!这篇指南就是你的“C 盘拯救手册”。咱们会手把手教你,在 Windows、Linux 和 macOS 这三大主流系统上,怎么给 Ollama 的模型们...

  • Ollama GPU 加速配置指南 (Windows & Linux),让 AI 推理快到飞起!

    感觉 Ollama 只用 CPU 跑模型有点慢吞吞?想不想体验那种秒回的 AI 速度?好消息!如果你的电脑有块不错的 NVIDIA 显卡(GPU),那它就是你的秘密武器!GPU 天生就是并行计算小能手,让它来处理 AI 推理,速度能甩 CPU 好几条街! 这篇指南,就是带你一步步解锁 Ollama 的 GPU 加速能力,无论你是 Windows 党还是 Linux 控,都能轻松搞定! 为啥要用 G...

  • 用 Python 召唤 Ollama 神龙?这份 API 新手指南带你飞!

    想用 Python 给你的 Ollama 本地大模型施展魔法吗?无论是想打造一个能跟你聊天的机器人、批量处理文本数据,还是随心所欲地管理你的本地模型库,这篇指南都能带你轻松入门! 咱们会一起探索如何跟模型进行简单对话、如何像看打字一样接收流式响应、怎么创建/复制/删除模型,甚至还会玩转更高级的自定义客户端和异步编程,让你的 AI 应用跑得更快更溜! 准备好了吗?开启你的 Python + Olla...

  • 用 FastAPI 给 Ollama 造个聊天室?手把手教你搭一个可视化界面!

    还在命令行里跟 Ollama 模型“尬聊”?是不是想给它配个更直观、更酷炫的聊天界面?好消息!用 Python 的 FastAPI 框架加上一点点前端魔法,我们就能轻松搞定! 这篇指南会带你一步步,从零开始搭建一个基于 FastAPI 的 Ollama 可视化聊天应用。我们会用到 WebSocket 技术来实现实时的、像打字一样的聊天效果。准备好了吗?Let's build something c...

  • 使用openai新推出的gep-4o-mini-tts语音合成模型

    > 这个音频就是使用openai的新语音模型合成的配音 新的语音转录模型 OpenAI刚刚推出了新的语音转录模型,相比之前的 whisper-1更加准确,而且分为2种型号,便宜的 gpt-4o-mini-transcribe 型号,昂贵的 gpt-4o-transcribe 型号,如果你需要高质量的识别或者音视频背景噪声较大,不妨试试后者。 使用很简单,如果你使用的OpenAI官方的接口,那么直接...

  • 执行 pip 安装命令时非常慢,又老是报错,该怎么办?

    而有时直接无法下载,提示 cannot connect huggingface.co。好不容易配好了科学上网环境,结果又出错了,proxyError、max retries 等错误层出不穷。 现在就来简单处理下这几个问题。 1. 下载缓慢 pip 下载源在国外,众所周知,由于各种原因,国内下载不可避免会很慢。 临时使用阿里云镜像 如果只是安装一个模块,或偶尔使用,可在命令后指定使用阿里云镜像,方法...

  • 修改后兼容F5TTS的webui.py,用于替换spark-tts自带的webui.py

    下载地址: https://pvt9.com/spark-use-f5-webui.zip 下载后解压,用里面的 webui.py 文件覆盖Spark-TTS自带的webui.py,如下图所示

  • 安装部署spark-tts:小白适用零基础版

    Spark-TTS 是最近备受瞩目的一个语音克隆开源项目,由香港科技大学、西北工业大学、上海交通大学等多所高校联合研发。经过本地测试,其效果与 F5-TTS 不相上下。 Spark-TTS 支持中英文语音克隆,安装部署过程并不复杂。本文将详细介绍如何安装部署,并进行修改,使其兼容 F5-TTS 的 API 接口,从而可以直接在 pyVideoTrans 软件的 F5-TTS 配音渠道中使用。 > ...

  • 安装部署spark-tts:小白适用零基础版

    Spark-TTS 支持中英文语音克隆,安装部署过程并不复杂。本文将详细介绍如何安装部署,并进行修改,使其兼容 F5-TTS 的 API 接口,从而可以直接在 pyVideoTrans 软件的 F5-TTS 配音渠道中使用。 > 前提条件: 确保已安装 Python 3.10、3.11 或 3.12 版本。 > 1. 下载Spark-TTS源码 首先,在非系统盘创建一个由英文或数字组成的文件夹,例...

  • 从零开始制作一个 AI 项目的 Windows 整合包 以 F5-TTS 为例,你也能成为整合包大神!

    > 由于 AI 项目的模型通常很大,再加上 GPU 支持,即使压缩成 7z 格式,文件大小也可能远远超过 5GB,不管是上传网盘和存储,都比较困难。因此,本人不再制作整合包,如果你感兴趣,可以根据本教程自行制作整合包,并分享给他人。 本教程以 F5-TTS 为例,在 Windows 10 上使用 Python 3.10 创建一个整合包。主要步骤如下: 1. 下载 Python 3.10 embed...

  • 从零开始制作一个 AI 项目的 Windows 整合包:以 F5-TTS 为例,你也能成为整合包大神!

    > 由于 AI 项目的模型通常很大,再加上 GPU 支持,即使压缩成 7z 格式,文件大小也可能远远超过 5GB,不管是上传网盘和存储,都比较困难。因此,本人不再制作整合包,如果你感兴趣,可以根据本教程自行制作整合包,并分享给他人。 本教程以 F5-TTS 为例,在 Windows 10 上使用 Python 3.10 创建一个整合包。主要步骤如下: 1. 下载 Python 3.10 embed...

  • F5-TTS api调用常见错误

    1. 报错 Could not fetch config for http://127.0.0.1:7860/ 答:可能的原因如下 - 未启动F5-TTS - 端口不正确 - 端口被其他程序占用,一般ai项目界面多使用gradio实现,默认端口都是7860 - 需关闭share,启动命令使用 f5-ttsinfer-gradio --api,去掉 --share - 升级调用端的 gradiocl...

  • F5-TTS v1 开源声音克隆教程:多语言克隆一步到位

    本文主要介绍如何使用官方源码安装、启动 F5-TTS,并将其与 pyVideotrans 项目对接。此外,还将介绍如何通过修改源码实现局域网内的调用。 > 同时,由于精力有限,我将不再维护之前的个人整合包和 API 接口,转而统一使用官方接口与 pyVideotrans 项目对接。官方接口的局限性在于只能本机调用,无法在局域网内调用。解决方法请参阅本文局域网使用部分。 前置条件 您的系统必须已安装...

  • 半开源语音克隆神器 MegaTTS3:安装难、用起来更难?手把手带你从零到精通

    开始之前,我们先来了解几个教程中会用到的基本概念: CMD 控制台 (命令提示符): 如何打开:在你想要操作的文件夹(比如 D:/python/megatts3)的地址栏里,删掉原来的路径,输入 cmd 三个字母,然后按回车键。 作用:会弹出一个黑色的窗口,这就是 CMD 控制台。本教程中提到的所有 命令 都在这里输入并按回车执行。 执行命令: 在 CMD 控制台里输入一行指定的文本(即“命令”)...

  • AI智能体啥来头?能干啥ChatGPT干不了的事?

    最近“AI智能体”这词儿老是冒出来,刷个新闻、看个视频,到处都在聊什么智能体、智能体市场,搞得跟新潮流似的。 ChatGPT、Gemini这些大伙儿都熟,可AI智能体到底是啥?直接用ChatGPT不就得了,干嘛还整出个智能体来? 先说AI智能体是啥。简单点,它就像个“全能小助理”。 你跟ChatGPT聊天,它能给你写文章、答问题,可要是叫它订个机票、查个快递,它就得摊手说:“这我可干不了!” 但A...

  • 主流大模型按用途分类,附上我的个人推荐

    1. 文字生成类:写作、聊天、润色全能手 这类模型专攻文本理解和生成,不管是写文章、翻译、润色文案,还是随便聊聊天,它们都能胜任。 - 国内免费好用: - DeepSeek Chat(chat.deepseek.com):文字任务的万能选手,简单好上手。 - 腾讯元宝(yuanbao.tencent.com):功能齐全,日常文字处理没压力。 - 通义千问(Qwen)(chat.qwen.ai):稳...

  • 小活熬深夜,建议满天飞:尿液都有拿铁味,人傻了?

    白天上班搬砖,晚上化身“义工”敲代码,免费端出视频翻译配音工具给大家用。 下载量热热闹闹,Issue 区简直是需求狂欢节:“能不能加个外星语翻译?”“发现重大 Bug!”“这 Bug 可能会让用户血亏!”“咋还不修?项目还活着吗”我盯着屏幕,默默吐槽:我这是开源啊,咋还成了全职客服? 捐助?别提了,Star 少的时候,三五不时的还有人捐点;Star 高了,半个月一个月可能会飘来 0.x 元、0.0...

  • 如何在 Windows 10 上使用 pip 和 venv 并安装 PyTorch

    --- 第一步:认识 pip 的常见命令和错误处理 常用 pip 命令 1. 安装一个模块 - 比如安装 requests(一个网络工具): pip install requests 按回车,下载并安装完成。 2. 检查已安装的模块 - 输入: pip list 会列出你装过的所有模块和版本。 3. 更新 pip 本身 - 如果 pip 版本老了,输入: pip install --upgrade...

  • 如何在 Windows 10 上安装 Miniconda 并配置 AI 软件环境

    这篇教程会手把手教你在 Windows 10 上安装 Miniconda,下载地址是官方提供的,然后配置一个 Python 3.10 的环境,再安装一些常用模块。别担心,即使你完全没基础,也能轻松搞定! --- 第一步:下载并安装 Miniconda 1. 下载 Miniconda - 打开浏览器,输入这个网址,然后按回车: https://www.anaconda.com/download/su...

  • 如何在 Windows 10 上安装 Miniconda 并配置 AI 软件环境

    这篇教程会手把手教你在 Windows 10 上安装 Miniconda,下载地址是官方提供的,然后配置一个 Python 3.10 的环境,再安装一些常用模块。别担心,即使你完全没基础,也能轻松搞定! --- 第一步:下载并安装 Miniconda 1. 下载 Miniconda - 打开浏览器,输入这个网址,然后按回车: https://www.anaconda.com/download/su...

  • windows上安装CUDA12.6和cuDNN9.8(小白适用详细版)

    CUDA 是英伟达(NVIDIA)推出的一种工具,能让你的显卡帮你干更多活儿。本文将手把手教你在 Windows 10 上安装 CUDA 12.6,以及配套的 cuDNN 9.8。 > 为什么选 CUDA 12.6而不是12.8?因为 12.8 是最新版,可能有些软件还没适配好,容易出兼容问题。而 12.6 是一个相对稳定又不过时的版本。当然,如果你想要 12.4 或 12.8,安装方法也差不多,...

  • windows上安装CUDA12.6和cuDNN9.8(小白适用详细版)

    CUDA 是英伟达(NVIDIA)推出的一种工具,能让你的显卡帮你干更多活儿。本文将手把手教你在 Windows 10 上安装 CUDA 12.6,以及配套的 cuDNN 9.8。 > 为什么选 CUDA 12.6而不是12.8?因为 12.8 是最新版,可能有些软件还没适配好,容易出兼容问题。而 12.6 是一个相对稳定又不过时的版本。当然,如果你想要 12.4 或 12.8,安装方法也差不多,...

  • 在Windows上安装python3.10(超详细小白版)

    为什么选择 Python 3.10.4? 因为它是一个比较稳定的版本: • 低于 3.10 的版本可能已经被一些软件放弃支持。 • 而更高版本(比如 3.11 或 3.13)可能太新,模型模块不兼容。 第一步:下载 Python 3.10.4 1. 打开浏览器,使用你常用的浏览器,在地址栏输入以下网址,然后按回车,打开下载页面: https://www.python.org/downloads/r...

  • 你的显卡到底能不能跑AI?一文解惑英伟达和七彩虹们的关系

    别急,今天我们用大白话聊聊显卡的“门道”,帮你搞清楚自己的显卡到底是不是“英伟达血统”。 --- 用一个比喻搞懂显卡 想象一下造汽车: - 英伟达(NVIDIA) 就像生产汽车发动机的厂家。它设计了GPU芯片(比如RTX 3060、4090),但它不负责组装整辆车。 - 七彩虹、华硕、技嘉等品牌就像汽车组装厂。他们买来英伟达的“发动机”(GPU芯片),加上自己的车壳、散热风扇、电路板,组装成完整的...

  • 在浏览器里搞定语音转文字 免费无上限,基于openai-whisper

    模型会在本地下载并运行,确保您的文件无需上传至任何外部服务器。 使用地址 https://stt.pyvideotrans.com --- 可供选择的模型 工具提供多种模型选项,包括: - tiny - base - small - medium - large-v1 - large-v3 模型特点: - 尺寸越小的模型(如 tiny 和 base),运行速度越快,但转录精度相对较低; - 尺寸越...

  • 智谱AI的CogView4似乎对中文支持没有所说的那么好

    未测试开源版本,但在线版本应该比开源的理论上更强大。 目测似乎是提示词过于复杂了,无法理解或遵循,还是内部仍是英文优先? > 智谱AI 入口 https://bigmodel.cn/trialcenter/modeltrial 以下是提示词 请画一张图片: 整体布局 - 简洁卡通风格 - 图像分为两部分,左边为“OpenAI之前”,右边为“OpenAI之后”,中间用一个箭头(→)连接。 - 每部分...

  • 本地部署大模型,硬件到底该怎么选

    但一头扎进模型世界,各种参数型号就让人懵了:7B、14B、32B、70B... 同一个模型,参数还这么多,到底该选哪个? 我的电脑又是个什么水平,能跑得动哪个? 别慌!这篇文章就来帮你理清思路,用最简单的方式告诉你,本地部署大模型,硬件到底该怎么选! 保证你看完不再迷茫! > 本文底部有 硬件配置与模型大小参考表 理解大模型参数:7B、14B、32B 代表什么? 参数的意义: 7B、14B、32B...

  • CPU vs GPU 为何AI大模型更看重GPU

    在AI领域,GPU(显卡芯片)比 CPU(中央处理器)更重要, 更更重要的是只有 英伟达GPU 才好使,而Intel和AMD就差的远。 --- GPU vs CPU:一个是打群架,一个是单挑王 想象一下,训练AI大模型就像搬砖。 CPU是那种“全能选手”,一个人能干很多活:计算、逻辑、管理不管多复杂都样样精通,但它核心数量少,最多也就几十个。 它搬砖的速度再快,一次最多也只能搬几个多说几十个,累死...

  • CPU vs GPU 为何AI大模型更看重GPU

    在AI领域,GPU(显卡芯片)比 CPU(中央处理器)更重要, 更更重要的是只有 英伟达GPU 才好使,而Intel和AMD就差的远。 --- GPU vs CPU:一个是打群架,一个是单挑王 想象一下,训练AI大模型就像搬砖。 CPU是那种“全能选手”,一个人能干很多活:计算、逻辑、管理不管多复杂都样样精通,但它核心数量少,最多也就几十个。 它搬砖的速度再快,一次最多也只能搬几个多说几十个,累死...

  • CogView4:智谱开源的图像生成利器,小白也能轻松玩转!

    这可不是普通的模型,它是业界首个支持中英双语提示词的开源文生图模型,尤其擅长理解中文提示,还能在图片中生成汉字。简单来说,你可以用中文或英文告诉它想要什么,它就能帮你生成一张符合描述的图片。无论是想做广告设计、短视频创作,还是随便玩玩创意,这个模型都能派上用场。 CogView4是什么? CogView4是智谱AI开发的一款AI图像生成模型,属于“文生图”技术的一种,也就是通过文字描述生成图片。它...

  • 借助 Cloudflare 的 Workers AI 在线部署 70b 大模型

    现在,可以借助 Cloudflare 的 Workers AI 在线部署 70b 这样的大模型,并通过外网访问。它的接口兼容 OpenAI,这意味着你可以像使用 OpenAI 的 API 一样使用它。唯一的缺点是每日免费额度有限,超出部分会产生费用。如果你有兴趣,不妨尝试一下! 准备工作:登录 Cloudflare 并绑定域名 > 如果你还没有自己的域名,Cloudflare 会提供一个免费的账号...

  • 302.AI大模型集市使用

    > 之前也推荐过一些国内api服务商,例如 > > 阿里百炼 https://bailian.console.aliyun.com > > 硅基流动 https://cloud.siliconflow.cn > > 字节火山方舟 https://console.volcengine.com/ark > > OpenRouter https://openrouter.ai > 目前国内可直连无需vp...

  • 主流AI大模型介绍

    值得庆幸的是,国内 AI 技术也在飞速发展,这些国内 AI 服务的 API 接口完全兼容 OpenAI SDK,这意味着你可以无需修改任何代码,即可无缝替换 OpenAI。例如 Deepseek、阿里百炼、智谱 AI、百川智能、硅基流动等。 你只需要将 API URL、SK (API Key)、模型名字 这 3 项关键信息填写到软件的 菜单 -- 翻译设置 -- OpenAI ChatGPT AP...

  • 使用AI大模型提取视频硬字幕

    为视频添加字幕,如今借助语音识别技术(ASR)已变得相当便捷。特别是 OpenAI 的 Whisper 系列模型,在语音转文字方面表现出色,让自动生成字幕成为可能。 然而,提取视频中已有的硬字幕(内嵌在视频画面中的字幕),仍然面临不少挑战。 视频本质上是由连续的图像帧组成。常见的视频帧率是 30fps(每秒 30 帧),这意味着 1 小时的视频就包含 108,000 张图像,对于高清视频,帧数则会...

  • 常用AI大模型平台盘点

    本文将盘点一些常用的、可免费试用的AI大模型平台,方便大家一探究竟。虽然市面上还有许多其他平台,但以下这些是我个人经常使用的,并认为值得推荐的 国内平台 1. 月之暗面 Kimi 网址 https://www.moonshot.cn/ api控制台 https://platform.moonshot.cn/console 模态: 文字模态、聊天、翻译等 免费额度 一分钟内最多发起的请求数:3 一分...

  • 在cloudflare上体验大模型

    现在,可以借助 Cloudflare 的 Workers AI 在线部署 70b 这样的大模型,并通过外网访问。它的接口兼容 OpenAI,这意味着你可以像使用 OpenAI 的 API 一样使用它。唯一的缺点是每日免费额度有限,超出部分会产生费用。如果你有兴趣,不妨尝试一下! 准备工作:登录 Cloudflare 并绑定域名 > 如果你还没有自己的域名,Cloudflare 会提供一个免费的账号...

  • DeepSeek满血推荐

    - deepseek.com官方,网页版免费并且效果最佳,无免费api额度,并且当前已暂停充值。 - 字节火山方舟/硅基流动等:提供 R1 满血版和 API,但没有免费额度。 - 百度智能云千帆 ModelBuilder:限时免费提供 R1 满血版和 API,可惜接口不兼容 OpenAI,使用不方便。 - 302.ai及其他云服务商,基本都是提供网页版部分免费额度,但不提供api免费额度 综合体验...

  • 使用AI翻译文档

    > 下载地址: https://github.com/jianchang512/stt/releases/download/0.0/AI-document-translate.7z > > 百度网盘下载: https://pan.baidu.com/s/1-UYnrMrQx7ectCt0rAfblA?pwd=sr1b 主要功能 格式兼容: 支持 Markdown、HTML、TXT 和 SRT 四种...

  • 将edge-tts部署在服务器并提供中转api

    基于此,有开发者创建了一个名为 edge-tts 的 Python 包。这个包允许在程序中使用微软的 TTS 服务,为文字或字幕进行配音。例如,视频翻译软件 pyVideoTrans 就集成了 edge-tts,用户可以在配音渠道中直接选择它。 然而,令人遗憾的是,国内用户对微软 TTS 的滥用现象较为严重,甚至有人将其用于商业配音销售。这导致微软对国内的访问进行了限制。如果使用过于频繁,可能会出...

  • 为edge-tts添加动态代理

    基于此功能的开源项目 edge-tts 也广受欢迎,许多免费的文字转语音工具都是基于它开发的。但随着用户增多,微软已对配音请求进行限流。现在,使用量稍大就会遇到 403 错误,导致无法继续合成语音。 如何避免或减少 403 错误? > 由于这是微软提供的 API 服务,而非开源项目,本地部署是行不通的。无论如何,语音合成都必须连接到微软的服务器。 1. 部署到 Cloudflare: 可以降低 4...

  • 将edge-tts部署在cloudflare上避免403错误

    先看效果,完成后将有一个配音api接口和一个web配音界面 这是web界面 js const requestBody = { "model": "tts-1", "input": '这是要合成语音的文字', "voice": 'zh-CN-XiaoxiaoNeural', "responseformat": "mp3", "speed": 1.0 }; const response = await...

  • 免费使用Elevenlabs的语音识别大模型Scribe_v1

    而且免费额度还挺高,单次支持上传 1G的音频或视频文件。 > 在视频翻译软件 pyVideoTrans中使用 > 本文介绍两种使用方式,在线web使用 在视频翻译软件中使用 1. 升级到 v0.59版本 https://pvt9.com/downpackage 2. 进入该页面创建一个 api key: https://elevenlabs.io/app/settings/api-keys 3. ...

  • 三步反思法翻译SRT字幕

    SRT 字幕格式的特殊要求 SRT 格式字幕有严格的格式要求: - 第一行: 行号数字 - 第二行: 两个时间戳,由 --> 连接,格式为 小时:分钟:秒,3位毫秒 - 第三行及以后: 字幕文本内容 字幕之间使用两个空行隔开。 示例: 1 00:00:01,950 --> 00:00:04,430 五老星系中发现了有几分子, 2 00:00:04,720 --> 00:00:06,780 我们离第...

  • glm-4-flash 和 qwen2.5-7b 免费大模型

    自 v3.47 版本后,在翻译渠道中新增了 GLM-4-flash(免费) 和 Qwen2.5-7b(免费) 这2个翻译渠道 只需要到 智谱AI官网(https://bigmodel.cn/usercenter/proj-mgmt/apikeys) 和 硅基流动官网(https://cloud.siliconflow.cn/account/ak) 创建api key,然后填写到软件的 菜单--翻译...

  • 使用GeminiAI兼容openai

    然而,它也存在一些不便之处,例如必须始终科学上网,且 API 与 OpenAI SDK 不兼容。 为了解决这些问题,并实现与 OpenAI 的兼容,我编写了一段 JavaScript 代码,并将其部署到 Cloudflare 上,绑定了自己的域名。这样一来,就可以在国内免科学上网使用 Gemini,同时也能兼容 OpenAI。在任何使用 OpenAI 的工具中,只需简单地替换 API 地址和密钥(...

  • Gemini安全过滤

    这是因为 Gemini 对处理的内容存在安全限制,虽然代码中允许一定的调整,也做了“Block None”的最宽松限定,但最终是否过滤仍由gemini综合评估决定。 Gemini API 的可调整安全过滤器涵盖以下类别,其他不再此列的内容无法通过代码调整: | 类别 | 说明 | | ------ | --------------------- | | 骚扰内容 | 针对身份和/或受保护属性的负面...

  • 让 gemini flash 模型也学会思考

    自然可以,gemini的所有模型均可设置 系统提示词,只需要将以下提示词放到 System Instructions 中 就能获得一个有思维链方式的模型。 第一个提示词 用户提供了关于他们希望你如何回应的额外信息: 内部推理: - 使用标签组织思路并探索多种方法。 - 用简单的英语思考,就像人类思考问题一样——标签内没有不必要的代码。 - 追踪代码的执行和问题。 - 将解决方案分解为清晰的要点。 ...

  • 使用Gemini转录音视频为字幕

    Gemini 很适合用来做语音转文字,它支持非常多的语言,包括一些小语种,识别效果也相当不错。 如果你想让 Gemini 直接生成 SRT 字幕文件,就需要使用特定的提示词。 下面分享一个提示词,可以直接复制使用,让 Gemini 帮你转录并输出 SRT 字幕。 语音转录提示词 你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT...

  • Grok3系统提示词

    然而,可能很多人不知道的是,大模型内部也存在着一套系统级提示词。 这些提示词并非由用户输入,而是预先植入模型之中的,它们如同模型的“行为准则”,指导模型如何生成回复,限制答案的范围,并过滤掉那些被认为不适宜的内容。 通常,这些系统级提示词是不对外公开的。 这主要是为了防止被恶意利用,例如被用于“越狱”攻击,绕过系统的安全限制,从而诱导模型输出有害或不当的内容。 不过,在某些情况下,系统提示词可能会...

  • KokoroTTS整合包下载

    > 项目地址 https://github.com/jianchang512/kokoro-uiapi web界面 启动后默认ui地址: http://127.0.0.1:5066 - 支持对文字和SRT字幕进行配音 - 支持在线试听和下载 - 支持对齐字幕 安装方法 Windows win10/11 可直接下载整合包,双击 start.bat 即可启动,若需GPU加速,请确保拥有NVIDIA显卡...

  • 使用本地大模型翻译字幕

    然而,受限于个人电脑的显存,本地部署的大模型通常较小,例如 1.5B、7B、14B 或 32B。 DeepSeek 官方在线AI服务使用的 r1 模型,参数量高达 671 B。这种巨大的差异意味着本地模型的智能程度相对有限,无法像使用在线模型那样随意使用,否则可能遇到各种奇怪的问题,比如翻译结果中出现提示词、原文与译文混杂、甚至出现乱码等。 根本原因在于小模型智能不足,对复杂提示词的理解和执行能力...

  • Openweb-ui部署与整合包下载

    别担心!Ollama + Open WebUI 这对黄金组合,将为你扫清一切障碍。 本文将提供保姆级教程,详细介绍如何利用 Ollama + Open WebUI,轻松搭建本地 AI 环境,让你拥有一个专属的、强大的 AI 助手,尽情探索 AI 的无限可能! > 温馨提示: 受限于硬件条件,本地部署通常无法运行 DeepSeek-R1 的最大版本(如 67B)。但别担心,较小规模的模型(如 1.3...

  • OpenRouter大模型集市

    然而,一个令人头疼的问题是,每使用一个平台的模型,我们就需要注册一个账号,甚至需要绑定支付方式。想要使用 ChatGPT?你需要 OpenAI 账号。想体验 Gemini?你需要 Google 账号。 当然,市场上也有一些 AI 聚合平台,如阿里云的百炼、字节跳动的火山方舟等。但它们主要侧重于自家的模型,缺乏国外顶尖模型。硅基流动虽然提供了一些国外模型,但并不全面,缺少 OpenAI 和 Clau...

  • 阿里降噪模型介绍

    在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如: - 语音识别: 噪声会降低语音识别的准确率,尤其是在低信噪比环境下。 - 语音克隆: 噪声会使依据参考音频合成语音的自然度和清晰度下降。 通过语音降噪能够一定程度上解决这些问题。 常见的降噪方法 目前,语音降噪技术主要有以下几种方法: 1. 谱减法: 这是一种经典的降噪方法,原理简单。 2. 维纳滤波: 这种方法对稳定的噪声效...

  • 替换edge-tts配音渠道的几种方式

    如果现在还想用 edge-tts,得悠着点,最好少量使用,尤其别在同一个 IP 上频繁操作。不然微软的服务端会直接返回 403 错误。为了方便理解,软件里会提示“限流错误”。这里有两种解决办法: - 可以试试把接口部署到 Cloudflare 上,利用它的动态特性,能减少 403 错误的发生。具体方法可以参考文档:https://pvt9.com/edgettscf - 或者继续在本地用,但得搭配...

  • srt/vtt/ass字幕格式

    SRT(SubRip Subtitle)、 VTT(WebVTT)、ASS(Advanced SubStation Alpha) 是3种非常常见的字幕格式。下面详细介绍每种字幕格式及其属性和设置。 SRT 字幕格式 SRT 是一种简单且广泛使用的字幕格式,后缀是.srt, 尤其在视频播放器、字幕编辑器中非常流行。其基本结构包括字幕编号、时间戳、字幕文本,字幕属性无法通过 SRT 直接定义(例如颜色...

  • 使用AI模型翻译字幕

    > > Deepseek V3/R1、Qwen2.5 这些国产AI,在翻译方面表现出色,而且价格比国外大模型更有优势。 更棒的是,我们可以通过阿里百炼和硅基流动这两个“大模型集市”,用一个API Key就能轻松调用它们,并将它们无缝集成到视频翻译软件中。 本文将手把手教你如何操作,让你充分利用国产AI大模型,提升视频翻译的质量和效率! 一、阿里百炼:海量模型,总有一款适合你! 阿里百炼就像一个 A...

  • 在线实时语音识别

    > https://stt.pyvideotrans.com 语音识别技术,也称为语音转录,利用人工智能将音频或视频中的语音转换为文本。这项技术在诸多领域都有广泛应用,例如会议记录、语音助手、字幕生成等等。 目前,语音识别主要有两种方式: 1. 基于离线模型的语音识别: 这种方式需要在本地计算机上部署语音识别模型。一个流行的开源方案是OpenAI Whisper。下载其大型模型(例如large-v...

  • 在线使用edge tts配音

    https://tts.pyvideotrans.com 之前也曾提供过类似的服务,但由于服务器到期等原因,不得不暂停。 现在,借助网络菩萨家强大的 Workers 技术,重新构建了这个平台,可提供稳定可靠的免费服务!只要使用量不是极大,就不会产生任何费用,当然也就没必要关闭了,除非某天微软加强限流措施不再提供免费使用。 - 完全免费: 基于 Cloudflare Workers 构建,享受免费额...

  • Grok3发布

    今天科技圈最受关注的消息,莫过于 xAI 推出的 Grok-3 大模型。据说这款 AI 模型具备了像人类一样的思考能力,关键在于它采用了“思维链”技术,能够像剥洋葱一样,将复杂的任务层层分解,进行深度分析,有点像 OpenAI 的 o3 和 Deepseek-r1。 提到 Grok-3,就不得不说它的缔造者马斯克。这位大佬直接宣称 Grok-3 是 “地球上最聪明的人工智能”,甚至补充了一句“聪明...

  • 优化字幕翻译

    > 虽然视频翻译软件里会有一些自带的“指令”,但你完全可以根据自己的经验来改,效果肯定更好!这篇文章就来聊聊AI翻译是怎么回事,用的时候要注意些什么,还会分享几个好用的“指令”给大家参考。 在视频翻译软件中,AI翻译提示词有3种类型,分别是: 默认不发送完整字幕 > 即仅仅将字幕中的文本行发给AI进行翻译,不发送行号、时间行、空行 优点: 节省token,降低API调用费率 缺点: 严格要求译文行...

Last updated: