东风中的蒟蒻-CSDN博客

东风中的蒟蒻

码龄6年

73,598

总访问量
76

原创
136

粉丝
73

关注

IP 属地：北京市

加入CSDN时间： 2020-08-14

查看详细资料

个人成就

获得214次点赞
内容获得16次评论
获得307次收藏
代码片获得235次分享
博客总排名40,817名
原力等级

原力等级

4

原力分

501

本月获得

0

TA的专栏

LLM
1篇
AIGC
6篇
T2V
1篇
numpy
OpenGl
1篇
算法模板
2篇
C++ Primer
9篇
C++ Primer Plus
4篇
IDE操作
6篇
图论
c++语法
2篇
作业
1篇
堆
2篇
RMQ
1篇
二分
1篇
二分分治
1篇
动态规划
1篇
Algorithm of char
3篇

TA关注的专栏 1

TA关注的收藏夹 0

TA关注的社区 5

TA参与的活动 1

兴趣领域设置

Python

python
数据结构与算法

排序算法推荐算法
人工智能

数据挖掘计算机视觉目标检测机器学习人工智能深度学习神经网络自然语言处理sklearn视觉检测图像处理迁移学习
操作系统

linuxubuntuwindows

创作活动更多

芯创视界・嵌入式视频创作征集大赛

嵌入式工程的价值，藏在每一次硬件调试、代码迭代与项目落地之中。让我们因热爱相聚，用镜头与一众开发者互通心得、彼此启发，记录下探索的每一步，分享思路与经验。让更多人看见嵌入式开发的魅力，也让每一次创作成为推动技术传播与社区成长的力量。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0d445ffce72b42f997aaf1b030a652aa.png#pic_center)

18人参与去参加

更多

【无标题】

摘要最新开源大模型训练技术报告显示，Kimi-K2.5、GLM-5、DeepSeek-V3和MiniMax-M1在模型架构和训练方法上均有突破。Kimi-K2.5采用万亿参数MoE架构，创新性地使用MuonClip优化器和PARL并行强化学习框架；GLM-5通过Slime异步RL基础设施显著提升训练效率；DeepSeek-V3的DualPipe流水线并行算法实现了通信开销的完全隐藏；MiniMax-M1则开发了CISPO强化学习算法优化长序列生成。这些技术共同推动了大规模语言模型在训练稳定性、计算效率和推

博文更新于 2026.03.11 ·

python 的线程、进程和协程

本文概述了Python中三种并发编程方式：线程、进程和协程。线程适合I/O密集型任务，共享内存但易出现同步问题；进程适合CPU密集型任务，独立内存但创建成本高；协程基于事件循环，适合高并发网络服务。文章重点介绍了concurrent.futures库的线程池和进程池使用，包括submit、map、result等核心方法，以及as_completed和wait等任务管理工具。同时对比了线程与协程在调度方式、阻塞影响等方面的差异，帮助开发者根据任务特性选择合适的并发方案。

博文更新于 2026.03.08 ·

MOE 速览

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

博文更新于 2025.07.28 ·

Megatron 中的 TensorParallel, PipelineParallel, ContextParallel,ExpertParallel

Megatron 中的TP, PP 和SP的 Code Review 实现

博文更新于 2025.07.28 ·

LLM 多语言数据集

本文介绍了三个多语言数据集构建案例：1）101 Billion Arabic Words Dataset从Common Crawl提取阿拉伯语数据，采用MinHash去重和阿拉伯语专用工具处理，但缺乏伦理过滤；2）Chinese Tiny LLM整合中文CC、学术论文等数据，采用启发式过滤并配套评估基准；3）CroissantLLM整合法语网络数据、法律文件、文化典籍等多样化来源，对网络数据进行了系统清洗。这些案例展示了不同语种数据处理的典型方法，包括专用工具使用、来源多样性保障和质量控制流程。

博文更新于 2025.07.27 ·

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进：论文还探讨了Transfusion模型的不同变体，包括使用不同大小的图像补丁、不同的编码/解码架构（线性层与U-Net块），以及限制图像噪声的程度，以提高特定任务的性能。这允许图像内的每个补丁能够相互注意，同时只能注意序列中先前出现的文本或图像补丁。

博文更新于 2024.09.04 ·

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

这篇论文试图解决的是盲目面部恢复（blind face restoration）问题，这是一个高度不确定的任务，通常需要辅助指导来改善从低质量（LQ）输入到高质量（HQ）输出的映射，或者补充输入中丢失的高质量细节。上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.CodeFormer也可以用于图像编辑之类的.

博文更新于 2024.09.04 ·

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023

VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.

博文更新于 2024.09.04 ·

图像评估指标

FID、PSNR、SSIM、LPIPS等图像评估指标

博文更新于 2024.08.19 ·

ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

ControlNeXt Paper Reading

博文更新于 2024.08.19 ·

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

清华智普最新T2V模型,CogVideoX,能生成480x720的6s fps=8视频,经过测试位于第二梯队,弱于快手可灵,Luma等模型

博文更新于 2024.08.15 ·

IP、ID一致性论文阅读

IP一致性：指的是给定输入的图像，要求保持图像中的ID不变，IP可能是Identity Property，要求能够识别出是同一个身份。目前通过IP的一致性技术，可以用于短视频短剧上，是一个新兴的市场技术。

博文更新于 2024.08.12 ·

Learning Efficient Convolutional Networks via Network Slimming

发布资源 2022.01.20 ·

笔记：计算机网络-应用层

发布资源 2022.09.29 ·

Scaling Vision Transformers to 22 Billion Parameters

Vision Transformer（ViT）的大规模扩展：尽管Transformer架构在自然语言处理（NLP）领域取得了巨大成功，但在计算机视觉（CV）领域，尤其是图像和视频建模方面，尚未实现与语言模型相当的规模扩展。论文提出了ViT-22B，这是一个具有220亿参数的Vision Transformer模型，是目前最大的密集ViT模型。训练稳定性和效率：在扩展ViT模型到22亿参数的过程中，作者遇到了训练不稳定性的问题。

博文更新于 2024.07.21 ·

哈工大高级算法、组合优化作业、实验、PPT和书籍

发布资源 2024.07.18 ·

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools(2024.7.16)

ChatGLM-4 最新论文阅读

博文更新于 2024.07.18 ·

PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE

PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE 简介

博文更新于 2024.07.18 ·

经典的卷积神经网络的pytorch实现（LeNet、AlexNet、VGGNet、NiN、GoogleNet、ResNet、DenseNet)

经典的卷积神经网络的pytorch实现

博文更新于 2022.06.16 ·

Linux c语言实现简单的CLI(command line interpreter)

这是标准答案#include "wish.h"#include <ctype.h> // isspace#include <regex.h> // regcomp, regexec, regfree#include <stdio.h> // fopen, fclose, fileno, getline, feof#include <stdlib.h> // exit#include <sys/types.h>#include &

博文更新于 2022.06.06 ·