3个令人兴奋的AI项目，已开源！

2024年3月27日22:08:09 1 824 °C

摘要

开源项目介绍，manga-image-translator，screenshot-to-code，OMG

大家好，今天继续聊聊科技圈发生的那些事。

一、manga-image-translator

当你作为一名资深二次元，跑遍了论坛，求遍了群友，终于，找到了一份期待已久的漫画资源。

3个令人兴奋的AI项目，已开源！

嗯，画面和之前看到的切片差不多，可就是哪不对..

生肉？！可没人说看个漫画还得精通语言啊！看不懂，咋办？

于是，manga-image-translator来了。

正如其名，manga 即日语的漫画， manga-image-translator 是一款开源的图像翻译器，上传图片，它能够识别图像中的文本部分，并将其翻译成你想要的语种。

3个令人兴奋的AI项目，已开源！

OCR（Optical Character Recognition），光学字符识别技术。基于这项技术， manga-image-translator 可以通过亮-暗检测的模式，精准的提取出图片中的文字，将其转换成可处理的数据。

manga-image-translator 接入了很多翻译器，将OCR提取出的文字进行翻译。

3个令人兴奋的AI项目，已开源！

此外，manga-image-translator 还有去除文本气泡里面内容的功能，方便后续进行编辑美化。当然，在进行文本去除后，manga-image-translator 还会对余下的气泡部分进行修复，保证了视图的美观和完整。

去除气泡内文字

项目地址：

https://github.com/zyddnys/manga-image-translator

目前项目已经开源，支持命令行执行和Web服务器执行两种模式。感兴趣的小伙伴可以自己试一试。

~~想必，开发团队中难免少不了几个绅士吧。~~

二、screenshot-to-code

一款将屏幕截图转换成代码的开源工具。

通过截取屏幕图像，screenshot 工具可以识别出代码的页面布局，生成HTML、CSS、Javascript 等常用的代码，同时还能预览代码实现的效果。

透过这个功能，似乎就像是 screenshot 帮我们戴上一副透视眼镜。仅仅根据截图，我们就能透过图像，直接看到背后的代码结构。当然，这背后的工作仍然要交给 AI 。

我们尝试将 Taylor Swift 的 Instagram 个人主页截图下来，并将其上传给 screenshot。

3个令人兴奋的AI项目，已开源！

可以看到， screenshot 在很短的时间内就生成了新代码，将 Taylor 的主页以很高的还原度“复制”了下来。

对于 NYTimes 的新闻， screenshot-to-code 也有不错的表现。

3个令人兴奋的AI项目，已开源！

单看这两个示例，我们可以发现，抛开选用的图像，只谈页面布局的话，说不上是一模一样，但 screenshot 至少能给出相似且舒服的代码，实现类似的布局效果。

在项目的主页上，作者团队声明使用了以下的AI大模型：

GPT4-Vision
Claude 3 Sonnet
DALL-E

工具主要使用 GPT4-Vision 生成代码，而 Claude 3 Sonnet 用于辅助（在某些输入情况下，它比 GPT4-Vision 性能更好），并使用 DALL-E 生成图像。

目前 screenshot-to-code 有两种使用方式。一种是在作者团队的网站上在线使用，需要付费。

地址：https://screenshottocode.com

另一种是本地部署。

3个令人兴奋的AI项目，已开源！

项目地址：

https://github.com/abi/screenshot-to-code

除了上传截图生成代码外，工具同样支持输入网页URL在线获取截图。项目已开源，可以自己部署进行体验。

三、OMG

国产团队开发的项目。简单来说，就是可以支持换脸生成。

OMG 支持 civitai.com 上的角色和风格 LoRA 。它还可以与 InstantID 组合用于多个 ID ，每个 ID 使用一个图像。

我们可以来看看作者团队给出的四种示例。

OMG + LoRA

LoRA 是 Stable Diffusion 模型的插件网络，在 SD 模型的基础上进行精细的微调。

OMG + InstantID

InstantID 的特点，就是可以在保持高保真度的同时，支持各种不同风格的图像生成。它能够根据一张人脸图像，生成多种风格的图像。

OMG + ControlNet

同样是 SD 模型的插件之一。可以输入一些调节图像指导图像的生成，在几种不同的方法下控制图片的布局，例如边缘图、深度图、分割图、法线图等等。

姿势示例

边缘图示例

深度图示例

OMG + style LoRAs

更换了几种不同的风格。

style LoRAs示例

项目地址：

https://github.com/kongzhecn/omg

项目已经开源，可以根据自己的需要，自由选择想要的方法进行体验。

微信公众号

分享技术，乐享生活：微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。

3个令人兴奋的AI项目，已开源！

一、manga-image-translator

二、screenshot-to-code