联系方式

手机：13683132915
Email: hudanyun.sheng@outlook.com

个人信息

盛胡丹筠/女/1993
硕士/佛罗里达大学电子与计算机工程
工作年限：4年
Github：https://github.com/DannieSheng
期望职位：数据科学家 <!– * 期望薪资：税前月薪25k~40k
期望城市：北京 –>

教育经历

佛罗里达大学
- 电子与计算机工程硕士（2018.01 - 2019.12）
- 硕士论文：基于高光谱图像的柳枝草基因型分类 (Switchgrass Genotype Classification using Hyperspectral Imagery)
- 工业系统工程硕士（2016.01 - 2017.12）
同济大学
- 物理学学士（2011.09 - 2015.06）
- 毕业论文： X射线多层膜KB成像的强度均匀性校正

工作经历

Zenni Optical (2023.06 ~ 2024.01)

数据科学家 (其中8月前是兼职)

德克萨斯西南医学中心 (2021.09 ~ 2023.05)

数据科学家

唐纳德丹福思植物科学中心 (2020.02 ~ 2021.09)

数据科学研究员

佛罗里达大学医疗中心 (2019.05 ~ 2019.08)

数据科学实习生

项目经历

自动处方解析项目（支持日本市场的眼镜处方自动识别）2023.09 ～ 2023.10

已有内部开发用于眼镜处方自动解析的工具（OptiReader），该工具的FastAPI服务已经部署在生产环境并且投入使用，可以支持北美市场的处方自动解析。需要需要支持VR眼镜在日本市场的上线。
- Google Document AI API’s Form Parser （付费，最初解决方案，当下仅仅用于PDF格式的输入）
- Donut (OCR-free Document Understanding Transformer)
  - Donut采用了一种创新的OCR-free VDU (Visual Document Understanding)模型，即无需OCR的文档理解模型。Donut采用了Transformer架构，并使用交叉熵损失进行预训练。尽管概念上简单，Donut在实验和分析中表现出色，成为OCR-free VDU领域的领先模型，同时在速度和准确性方面取得了最先进的性能。
  - Donut本身在英文、中文、韩语、日语的数据集上预训练
经调研，日本市场主流处方有两种：与北美的眼镜处方除了语言不同外没有差别的横版处方；以及北美市场几乎没有出现的竖版处方
调整现有模型，使得现有模型可以正常处理处方中有日语，并且也能处理竖版处方
通过调研，竖版处方在日本处方中占较大比重（超过50%），因此为正常解析日本市场的处方，模型调整是必要的；但是日本市场占整个市场的比重比较小，因此花费时间精力重新训练Donut模型（标记数据、训练、调优等等）过于繁琐和不必要
为API增加用户输入来表示处方数据来源(country_of_origin)，以便于根据来源来区分后续步骤
对所有来自日本的处方(country_of_origin=JP)，先通过后处理已有Donut模型的输出来判断处方是否是横版
- 若为横版处方，则正常输出结果
- 若为竖版处方，则增加一个利用Google Form Parser的步骤，利用现有工具直接解析处方
经部署在Dev环境测试后部署上线生产环境投入使用，正常支持日本市场。

模糊度检测图像质量测评模块 2023.11 ～ 2024.01

从直观感受以及之前生产环境收集到的数据来看，图像本身的质量会极大程度影响处方解析的成功率与准确率。
- 已有内部开发的图像质量测评模块，该模块可以检测图像的方向(orientation)。但是仍然需要一个模块来评估图像的模糊程度。
设计并训练一个多任务的图像质量评估模块，可以同时评估图像的方向以及模糊程度
已有图像方向检测模块是基于ConvNeXt V2 (OCR-free Document Understanding Transformer)，并且拥有优秀表现。
- ConvNeXt V2 基于ConvNe模型进行了改进，引入了全卷积的自编码器架构和新的全局响应归一化（GRN）层。是结合了自监督学习技术和架构改进的设计。
- ConvNeXt V2 在图像分类、目标检测和分割等多个领域都表现出色。特别是在 ImageNet 分类、COCO 目标检测和ADE20K 分割等基准任务上，ConvNeXt V2 在性能上有着显著的提升。
  - 最后，ConvNeXt V2 提供了多个规模的预训练模型，从高效的 3.7M 参数 Atto 模型到 650M 参数的 Huge 模型，都在 ImageNet 上取得了令人瞩目的性能。
- ConvNeXt V2 的架构改进包括引入全卷积的自编码器框架，这为模型提供了更好的特征学习和表达能力。此外，新的全局响应归一化（GRN）层被添加，以增强通道间特征竞争，从而进一步提高模型的性能。
数据标记：
- 在已有处方解析标签的数据集（用label studio标记）上，通过制定相关标记规则，来产生针对模糊度的标签（～1800 labeled prescription images）
- 但是面临的巨大挑战是，已有数据中，高度模糊 (Blurry) 所占比例相比Fine 来说太小，造成类别严重不均衡，不利于分类模型训练。
- 通过查询生产数据库来收集更多 Blurry 数据
  - 包含利用 Streamlit 开发可视化小程序来辅助数据标记
模型设计
- 针对图像模糊度检测（分类）的模型也选用了ConvNeXt V2作为backbone，选用了hugging face上的timm/convnextv2_base.fcmae_ft_in22k_in1k_384。
- 损失函数选了 Poly1FocalLoss (提高处理不平衡数据分类的表现)
模型表现：
- Fine 准确率：96.2% Blurry 准确率：89.6%
- Fine F1: 95.4% Blurry F1 88.9%

mask R-CNN 用于H&E染色病理图像检测项目 2021.10 ～ 2021.12

已有基于keras的mask R-CNN的模型，用于检测非小细胞肺癌(Non-Small Cell Lung Cancer)的染色病理图像中常见的6类细胞核，并同时进行分割和分类
通过迁移学习，微调一个用于检测乳腺癌的染色病理图像中常见的7类细胞核，并同时进行分割和分类
由于数据的标签存在一定缺陷，不能直接用于训练：
- Mask R-CNN的需要同时有边界框和（位置）、类别标签、以及像素级别的掩码标签
- 真实数据的标签有部分缺失———有些数据缺失了掩码标签，有些数据缺失了类别标签（Unlabeled）；经统计，这部分标签缺失占总数据的20%（直接舍弃会造成数据浪费）
通过重新设计mask R-CNN的损失函数，使得计算损失的时可以有选择地忽略标签有缺失的样本
- 具体来说，缺少分类标签的样本不参与分类损失的计算，缺少掩码标签的样本不参与掩码损失的计算
获得了一个基于PyTorch框架的、适用于检测乳腺癌的染色病理图像中常见的7类细胞核，并同时进行分割和分类的mask R-CNN模型（检测率82.5%，7分类准确率82.0%）
Mask R-CNN (region based CNN) 选择原因：
- Mask R-CNN在实例分割任务中具有高精确度和准确性。在肿瘤细胞核检测中，准确地定位和分割细胞核是至关重要的。
- Mask R-CNN不仅能够检测物体的边界框，还能生成每个对象实例的详细掩码。对于肿瘤细胞核检测，掩码的生成能力可以提供更详细和精细的信息，有助于更准确地理解细胞核的形状和结构。
- 基于PyTorch的Mask R-CNN具有灵活性和可调整性，可以根据任务的需求进行修改和调整。这使得它非常适合处理不同形状、尺寸和密度的肿瘤细胞核。
- Mask R-CNN 是一个受欢迎的模型，有一个庞大而先进的社区支持，拥有丰富的资源、文档和预训练模型。这有助于简化开发过程，加速模型训练和优化过程。

plantCV 项目 2020.02 ～ 2021.09

PlantCV（Plant Computer Vision）是一个专为植物表型分析设计的开源软件包，它基于Python编程语言开发，集成了OpenCV（Open Source Computer Vision Library）等先进的图像处理库。该项目旨在为植物科学家和研究人员提供一个强大、灵活且用户友好的工具，以自动化和量化从各种图像数据中提取的植物表型信息
核心功能
- 图像预处理：PlantCV提供了一系列图像预处理功能，如调整大小、裁剪、背景去除、噪声滤波等，以改善图像质量，为后续分析做准备
- 特征提取：能够从图像中提取多种植物表型特征，包括但不限于形态学特征（如面积、周长、形状描述符）、颜色特征、纹理特征等
- 多模态分析：支持处理和分析来自不同成像模式的数据，包括可见光、荧光、红外线和三维成像数据，使其能够适应多种研究需求和实验设计
- 高通量处理：针对高通量植物表型平台设计，能够自动化处理大量图像数据，提高研究效率和数据处理能力
设计理念
- 开源和社区驱动：PlantCV是一个开源项目，鼓励社区贡献和协作，通过GitHub等平台进行代码共享、问题解答和功能更新
- 易于使用和扩展：提供了详细的文档、教程和示例代码，帮助用户快速上手并根据自己的研究需求定制和扩展功能
- 跨学科工具：虽然主要面向植物科学领域，但其强大的图像处理和分析能力也适用于生物学、生态学和农业科学等相关领域的研究
应用场景
- 基因型与表型关联分析：通过量化表型特征，帮助研究人员探索基因型与表型之间的关系
- 环境应答研究：分析植物对环境变化（如光照、温度、水分等）的表型响应，以研究其适应性和生存策略
- 品种筛选和育种：量化分析植物表型特征，为植物育种和品种改良提供科学依据

技能清单

数学和统计学基础：具备扎实的数学原理、概率论和统计学基础，并将这些概念应用于实际情境
人工智能和机器学习：机器学习、深度学习和计算机视觉，开发和部署复杂的深度学习和机器学习模型
深度学习框架或平台：PyTorch、spaCy、TensorFlow、Keras、Hugging Face
编程语言和工具：Python (包括NumPy、Pandas、Scikit-learn、SciPy、ggplot2、Seaborn、OpenCV、Streamlit和plotly等库)、 MATLAB
DevOps及云技术：Google Cloud、熟练使用Docker进行容器化
版本控制：Git
数据库和数据存储：MySQL、CloudSQL、BigQuery
Web开发：Flask框架、FastAPI框架、HTML、CSS、Ajax和JavaScript
数据分析：SQL、MS Office、Tableau
其他领域：电子健康档案（EHR）数据分析

Hudanyun Sheng

联系方式

个人信息

教育经历

工作经历

Zenni Optical (2023.06 ~ 2024.01)

德克萨斯西南医学中心 (2021.09 ~ 2023.05)

唐纳德丹福思植物科学中心 (2020.02 ~ 2021.09)

佛罗里达大学医疗中心 (2019.05 ~ 2019.08)

项目经历

自动处方解析项目（支持日本市场的眼镜处方自动识别）2023.09 ～ 2023.10

模糊度检测图像质量测评模块 2023.11 ～ 2024.01

mask R-CNN 用于H&E染色病理图像检测项目 2021.10 ～ 2021.12

plantCV 项目 2020.02 ～ 2021.09

技能清单