LIANG ZHENりょう しんRYO SHIN

ML 工程师 ・ 研究者

研究、构建、落地——皆围绕语言。

查看成果

Selected metric

数据化的成果

医疗 AI 项目中实测的精度提升

医疗术语识别准确率(ASR 召回率)

衡量 AI 转写医生语音时,能否不遗漏地识别出病历所需的医疗术语。通过约 190 小时医疗语音数据对 ASR 模型进行领域适配,从而实现提升。

About

个人简介

语言教育研究者,亦是打造 AI 的工程师。

在京都大学研究大规模语言模型(LLM)的教育应用并取得博士学位。从国立国语研究所的词汇分析器、医疗语音识别(ASR)的精度优化,到招投标信息抽取 PoC,我在研究与工程实现之间独自往返,把想法变成可用的产品。2026 年 4 月起作为工程师加入 GMO Pepabo。

京都大学研究生院(硕士毕业・博士毕业,已取得博士学位)

github.com/ryoshin0830

擅长业务

系统设计与开发项目管理研究开发(R&D)

擅长领域

Web 开发

以 Next.js / React / TypeScript / FastAPI / Node.js 为核心的全栈开发,从需求定义到部署运维一贯负责。

ML 与 LLM 工程

LoRA 微调、LangChain / LangGraph 智能体设计、ASR 改进、DeepSpeed ZeRO 多 GPU 训练,以及 stepaudio / phi4 / Gemini 等 LLM 与多模态模型的验证。

语言教育系统

学习者语料分析、词汇难度判定、自动出题系统、多读平台——长期与教育现场与研究机构协作开发。

专业领域

  • ·外语教育学・第二语言习得・应用语言学
  • ·大规模语言模型(LLM)的微调与构建
  • ·基于机器学习的词汇难度预测与语言评估
  • ·教育语法与学术英语教学

人生时间线

Professional Experience

工作经历

以业务委托和正式员工身份参与的实施与研发项目

2026年4月 — 至今

正式员工

工程师岗位· 在任

GMO Pepabo 株式会社 · IT・互联网

职责
工程师(正式员工)
规模 / 体制
全公司 362 人

2026年2月 — 2026年3月

业务委托

信息通信工程招投标自动抽取与企业评分 PoC

株式会社 Sapeet · AI / SaaS

完成招投标抽取 PoC,并搭建企业评分基础架构

职责
Forward Deployed Engineer(业务委托)
规模 / 体制
整体 53 人 / 团队 5 人

担当阶段

需求定义

概要设计

详细设计

实现与开发

测试与评审

维护与运营

技术栈

PythonLLM

查看工作详情

担当业务

  • ·从需求定义到抽取逻辑的设计・改进,一贯推进招投标 PoC
  • ·系统结构、部署运营与权限管理的设计

工作内容

  • ·构建信息通信工程招投标信息的自动抽取管线
  • ·设计并实现企业评分逻辑
  • ·通过改进提示词设计提升抽取精度

2025年6月 — 2026年3月

业务委托

SUIREN — 面向日语学习者的速读练习平台

梅西大学(新西兰) · 教育 / 研究支持

构建面向日语学习者的速读练习平台『SUIREN』

职责
全栈开发(业务委托)
规模 / 体制
整体 3 人 / 团队 3 人

担当阶段

需求定义

概要设计

详细设计

实现与开发

测试与评审

维护与运营

技术栈

Next.jsTypeScriptTailwind CSSVercelPostgreSQL

查看工作详情

担当业务

  • ·与梅西大学 Dr. Mitsue Tabata-Sandom 的日语多读研究协作,设计并开发速读练习平台
  • ·设计并实现阅读速度(WPM)与理解度测量功能

工作内容

  • ·按等级划分的速读内容与出题流程
  • ·实时阅读速度(WPM)与理解度测量
  • ·小测验形式的互动学习
  • ·学习进度的可视化与跟踪面板

2025年6月 — 2026年1月

业务委托

医疗病历自动生成 SaaS『medimo』

株式会社 medimo · 医疗 / 健康 AI

将医学术语 ASR 召回率从 82.26% 提升至 89.72%

职责
工程师・需求定义与设计主担当(业务委托)
规模 / 体制
整体 40 人 / 团队 25 人

担当阶段

需求定义

概要设计

详细设计

实现与开发

测试与评审

维护与运营

技术栈

PythonFastAPITypeScriptReactLangGraphLangChainDifyPyTorchTransformersDeepSpeedAWS AuroraAWSDockerFigmaJupyter

成果

  • 把每位医生定制的摘要 Prompt 自动化,迁移到可随样式扩展的运营模式
查看工作详情

担当业务

  • ·主担当需求定义与设计,并负责实现与代码评审
  • ·面向医生专属病历格式(SOAP / 时序 等)的自动生成 Prompt 机制 PoC・设计・实现(LangGraph)
  • ·推进 ASR 精度提升(基于约 190 小时医疗语音标注,进行 LoRA 等微调、评估设计与训练运营)

工作内容

  • ·整理『医生上传既往病历后,按样式自动生成摘要模板』的规格与需求
  • ·用 LangGraph 设计并实现 Prompt 生成流程,针对每位医生 / 机构自动适配模板
  • ·搭建可对 Prompt 生成与校验进行持续运营的 LangGraph 执行与管理通道
  • ·使用 FastAPI + React 开发 Prompt 自动生成 UI 与生成后端(与 3 名开发者协作)
  • ·对 stepaudio / phi4 / Gemini 等 LLM 与多模态模型进行验证与比较
  • ·基于 DeepSpeed(ZeRO 等)搭建多 GPU 训练与实验流程,运营持续改进循环

2023年11月 — 2025年3月

业务委托

语汇画像器系统开发

国立国语研究所(NINJAL) · 研究项目

以国立国语研究所松下达彦先生的语汇研究(《日本語を読むための語彙データベース》/VDRJ)为基础,对输入的日语文本进行即时分析,并按词汇难度与使用频率进行可视化的语汇画像器

职责
项目负责人(业务委托)
规模 / 体制
整体 13 人 / 团队 6 人

担当阶段

需求定义

概要设计

详细设计

实现与开发

测试与评审

维护与运营

技术栈

JavaScriptTypeScriptReactNode.jsExpressPostgreSQLVercelAWSDocker

成果

  • 将基于 Word2Vec 的词汇难度预测模型作为 API 集成,输出便于研究与教学使用的画像结果
查看工作详情

担当业务

  • ·作为项目负责人统筹从需求定义到实施
  • ·基于 React + Node.js 构建仪表盘
  • ·基于 WebSocket 实现实时数据处理

工作内容

  • ·团队整体管理与技术选型
  • ·前端(React)与后端(Node.js / Express)的设计与实现
  • ·形态素分析与词汇难度判定的数据处理管线构建
  • ·PostgreSQL 数据库设计与性能优化
  • ·通过 SSL/TLS 与令牌认证强化安全

Personal Products

个人产品

与业务委托独立运营的个人开发、OSS 与教育类产品

词汇问题自动生成系统

使用 Word2Vec 与 LDA 的日语词汇题自动生成系统,基于分布式表示与主题模型实现高质量的干扰项生成

主要功能・特点

  • ·基于 Word2Vec 分布式表示的语义相似词抽取
  • ·基于 LDA 主题模型的上下文干扰项生成
  • ·基于 MeCab 形态素分析的词汇难度估计
  • ·基于机器学习的选项质量自动评估

技术栈

PythonWord2Vecscikit-learnGensimNLTKMeCab

Research

研究活动

语言教育领域的 AI 技术创新

  • 4

    同行评议论文

  • 5

    学术会议发表

  • 1

    著作

著作

  1. 2026

    英语教育:现状的课题与未来展望 I

    梁震(分担执笔)

    Springer Nature(新加坡) · 分担执笔

    在 Springer Nature Link 查看

同行评议论文

  1. 2025

    关于日常会话中漫画角色语言的一点考察 ——从日语教育的视角出发——

    王芳、金丸敏幸、梁震

    ことば, 46, pp. 55–72

  2. 2023

    面向中日双语者的日语语汇量测试音频版的开发与验证

    彭悦、梁震、笹尾洋介

    日语教育, 185, pp. 93–108

  3. 2023

    VR 中的运动与记忆:VR 操控方式对外语正字法记忆的影响

    Vincent, N. H., Liang, Z., & Sasao, Y.

    International Journal on Cybernetics & Informatics (IJCI), 12(1), pp. 151–164

  4. 2022

    日语学习中影像作品字幕的利用——基于语言选择的视角——

    彭悦、梁震、笹尾洋介

    语言文化教育研究, 20, pp. 335–356

学术会议发表

  1. 2025

    基于新学习指导要领的英语检定教科书搭配词分析——以小中高衔接为视角——

    中野珠悠、梁震

    全国英语教育学会(JASELE)第 50 届纪念埼玉研究大会

  2. 2024

    基于英语检定教科书语料的高频搭配词分析

    中野珠悠、梁震、笹尾洋介

    全国英语教育学会 JASELE 第 49 届福冈研究大会

  3. 2024

    通用语言模型能否基于日语学习者数据预测词汇难度?

    梁震、笹尾洋介

    言语处理学会 2024

  4. 2022

    面向中日双语者的日语语汇量测试音频版的开发与验证

    彭悦、梁震、笹尾洋介

    日语教育学会秋季大会预稿集

  5. 2022

    日语词汇问题选项自动生成程序的开发与验证

    梁震、笹尾洋介

    日语教育学会春季大会预稿集

Stack

技能与技术栈

在工作、研究与个人开发中使用过的技术栈(按熟练度分组)

编程语言

主力
JavaScriptTypeScriptPython
熟练
SwiftPHP

前端

主力
ReactNext.js
熟练
Tailwind CSS
了解
React Native

后端

主力
FastAPI
熟练
Node.js / ExpressWordPress

AI·机器学习

主力
LangGraph
熟练
LangChainPyTorchTransformersDeepSpeedLoRADifyScikit-learnWord2Vec / gensimMeCabJupyter

数据库

主力
PostgreSQL
熟练
MariaDB / MySQLAWS Aurora
了解
MongoDB

基础设施

主力
AWS
熟练
VercelDockerLinuxNginxApacheCaddy

开发工具

熟练
GitFigma

语言能力

  • 日语JLPT N1 满分・母语水平
  • 中文母语(北京出身)
  • 英语CET-4・学术论文写作水平

资格与认证

  • 2025年

    CATTI 国际版 翻译

    中日翻译认定证书 - 国际通用翻译能力等级考试(CATTI 国际版)

  • 2025年

    CATTI 国际版 口译

    中日口译认定证书 - 国际通用口译能力等级考试(CATTI 国际版)

  • 2022年

    日本驾驶证

    在日本取得的普通汽车驾驶证

  • 2020年

    JLPT N1(满分)

    日语能力考试 - 最高级别满分

  • 2019年

    ICT 熟练度检定

    信息通信技术相关资格

  • 2018年

    中国驾驶证

    在中国取得的普通汽车驾驶证

  • 2018年

    大学英语四级

    面向中国大学生的全国英语能力测试