Digest2024.Week33 - 《东邪西毒》

2024/08/15 共 6672 字 17 分钟阅读
DIGEST 感悟

AI 摘要: 本文涉及内容摘要工具主要包括如何学习英语、电影《东邪西毒》、拥抱变化、实时让他人感觉自己重要、YC的创业者的必读袖珍指南、Bitwarden密码管理器、HTTP/HPACK算法、web开发中的cookies、localStorage和sessionStorage区别、识别电影中的英文、LLM相关(包括PyTorch、MPS、CUDA、GPU、Hugging Face、TPU)以及关于AI+效能思考等。技术相关的内容包括Bitwarden密码管理器、HTTP/HPACK算法、web开发中的cookies、localStorage和sessionStorage的区别，以及LLM基准评测。此外，还有关于AI+效能思考和完美的SQL查询技巧的内容。生活方面的内容包括从中国大陆拨打香港电话的方式，以及使用iPhone双卡前提的要求。

摘要感悟

如何学习英语 - Bilibil收藏

听说读写，量力而为

听一句，跟读一句，复述一句（可根据自己的理解来说）精听，聚焦经典语段，反复听。
选择听力材料，基本上能看懂的。切一块，吃一块，听懂了才往下听。（要有一定词汇量基础）
边听边采取意群，用嘴巴提取意群。取决于阅读能力，阅读时提取意群能力很强，对听力有帮助。听的时候直接感受，不用直接翻译。
英语连读和弱读。（完全吸收法）一句句模仿，模仿技能性东西，轻读能感受到连读。（让人感觉说话很快）
训练发音和节奏
可以根据自己情况开倍速听，对于正常听力有帮助。

摘自电影《东邪西毒》 - 2024/08/15

《东邪西毒》以前看不懂，现在看突然感觉有一些看懂了

像你这种年轻人我见多了，懂点武功就以为可以横行天下，其实行走江湖是件很痛苦的事，会武功，有很多事情你不能做，你不想种地吧，又不屑去打劫，更不想抛头露面在街头卖艺，那你怎么生活？武功高强，也得吃饭，其实有种职业很适合你，既可以帮你赚点钱，又可以行侠仗义，有兴趣吗？
想回家了？遇到这么点事就想回去的话，那干嘛当初要出来？
不知道过了这个沙漠后面会是什么地方？ – 是另一个沙漠
每个人都会经过这个阶段，见到一座山，就想山后面是什么；其实我很想告诉他，到了那边你会发现没什么特别，回头看过来，可能会觉得这边更好，但我知道，像他这种人不会相信，没有亲眼是见到不会甘心的。

拥抱变化《AI+研效》 - 2024/08/13

听到TEG大佬的关于新技术变更日新月异下，研发人员如何应对？

拥抱变化，以生产者和消费者的姿态躬身入局：以生产者角色将新技术引入到项目产品中来，改善产品功能、特性、效率、性能等，另一方面以消费者角色，体验和应用各种行业应用变更技术的产品，亲自感受技术变更带来的变化，去拥抱变化！

实时让他人感觉自己重要（稀缺性） - 2024/08/10

《人性弱点》里面分享的一个观点，某些时刻让他人感觉自己的重要性还是有用的，下面是GPT提供的一些方法，摘要下

倾听和关注（知心）：积极参与对话，提出有意义的问题，展示对他人的兴趣
赞赏和鼓励（赞赏）：真诚的赞赏和鼓励，肯定他们的成就和努力
帮助和支持（帮助）：展示自己的专业知识和技能，让他人感受到自己的价值和重要性
分享和合作（分享）：分享自己的知识和经验，积极参与合作项目，展示自己的能力和价值，与他人共同创造成果
自信和积极（积极）：展现自信和积极的态度，对待自己和他人的能力和潜力持乐观态度

YC 的创业者的必读袖珍指南

YC 有一个创业者的必读袖珍指南，写得挺好的，用中英文对照的方式整理分享给小伙伴们，值得时不时看一看来修正自己的路径
括号是自己的一些联想，希望某天亲自实践！
来源: https://weekly.tw93.fun/posts/186-%E9%9D%92%E6%9F%A0%E5%86%B7%E9%A5%AE

Launch now - 立即启动（积极主动的习惯）
Build something people want - 打造人们需要的东西（寻找痛点，避免伪需求）
Do things that don’t scale - 做一些无法扩展的事情（无法被轻易替代）
Find the 90 / 10 solution - 找到 90%问题与 10%解决方案的平衡 (28原则、正态分布)
Find 10-100 customers who love your product - 找到 10 到 100 个热爱你产品的客户（忠实客户）
All startups are badly broken at some point - 所有初创公司在某个时刻都会遇到严重问题（CEO需要不断学习，应对问题和麻烦）
Write code - talk to users - 编写代码 - 与用户交流（不闭门造车）
”It’s not your money” - “这不是你的钱” (钱花在刀刃上)
Growth is the result of a great product not the precursor - 增长是优秀产品的自然结果，而非先决条件（做好产品了，增长自然来了，酒香不怕巷子深？）
Don’t scale your team/product until you have built something people want - 在你打造出人们需要的东西之前，不要扩展你的团队或产品（MVP+精益创业）
Valuation is not equal to success or even probability of success - 估值不等于成功，甚至不等于成功的可能性（IPO不是目标）
Avoid long negotiated deals with big customers if you can - 如果可以的话，避免与大客户进行长时间的谈判（不花费时间在不关注你产品的公司、人和事上）
Avoid big company corporate development queries - they will only waste time - 避免与大公司进行企业开发咨询 - 他们只会浪费时间（大公司太官方）
Avoid conferences unless they are the best way to get customers - 除非参加展会是获取客户的最佳方式，否则避免参加（时间就是金钱）
Pre-product market fit - do things that don’t scale: remain small/nimble - 在产品市场契合之前 - 做一些无法扩展的事情：保持小规模和灵活性（MVP精益创业、小步快跑）
Startups can only solve one problem well at any given time - 初创公司在任何时候只能很好地解决一个问题（聚焦，奥姆剃刀，要事优先原则，ROI最大化）
Founder relationships matter more than you think - 创始人之间的关系比你想象的更重要（选择伙伴的重要性）
Sometimes you need to fire your customers (they might be killing you) - 有时你需要“开除”你的客户（他们可能会毁了你）（有选择的服务好你的客户）
Ignore your competitors, you will more likely die of suicide than murder - 忽略你的竞争对手，你更可能死于自杀而非他杀（不被对方牵着鼻子走《孙子兵法》）
Most companies don’t die because they run out of money - 大多数公司并非因为资金耗尽而倒闭（资金很重要，但没有那么重要）
Be nice! Or at least don’t be a jerk - 要友好！或者至少不要成为一个混蛋（不作恶，科技向善，底线）
Get sleep and exercise - take care of yourself - 睡觉和锻炼 - 照顾好自己（身体是革命的本钱）

技术相关

Bitwarden - V2EX

最近从用了十多年的 keepass 换到了 Bitwarden 。Bitwarden 就是比较统一各各端都一样，不过 keepass 还在保留着，如果试用两个月后有不能接受的点，再换回去

Bitwarden是一款开源的密码管理器，用于存储和管理用户的各种密码和敏感信息。它提供了一个安全的方式来保存和自动填充密码，以便用户可以方便地访问其各种在线账户。

Bitwarden支持多平台，包括Web浏览器插件、桌面应用程序和移动应用程序，可以在各种设备上使用。它还提供了浏览器插件和移动应用程序之间的同步功能，以确保用户的密码和数据在不同设备之间保持同步。

Bitwarden使用加密算法来保护用户的密码和敏感信息。它使用AES-256位加密算法对数据进行加密，并使用PBKDF2来加密用户的主密码。此外，Bitwarden还提供了双因素身份验证功能，以增加账户的安全性。

Bitwarden还提供了一些其他功能，如生成强密码、自动填充表单、共享密码等。用户可以创建不同的安全容器，将密码和敏感信息组织在不同的文件夹和项目中。

总之，Bitwarden是一个安全、方便的密码管理器，可以帮助用户管理和保护他们的密码和敏感信息。它是一个开源项目，用户可以自由地使用和修改它。如果你想了解更多关于Bitwarden的信息，可以访问它的官方网站：https://bitwarden.com/

HTTP/2里面HPACK算法

HPACK算法的核心思想是使用索引表来存储已经发送过的头部字段，然后使用索引来引用这些字段。索引表分为动态表和静态表。动态表存储最近发送的头部字段，而静态表存储一些常见的头部字段，如请求方法、状态码等。当发送一个头部字段时，HPACK算法会首先检查动态表和静态表，看是否存在相同的字段。如果存在，就使用索引来引用该字段。如果不存在，就将该字段添加到动态表，并使用索引来引用该字段。此外，HPACK还支持使用字面值来表示字段，以应对一些特殊情况。 HPACK算法通过减少头部信息的大小，从而减少了网络传输的数据量，提高了性能和效率。它在HTTP/2协议中被广泛采用，并取得了显著的效果。

在Web开发中，cookies、localStorage和sessionStorage区别

Cookies（HTTP Cookies）是一种在浏览器和服务器之间传递的小型文本文件。它们由服务器在HTTP响应中设置，并在随后的请求中由浏览器发送回服务器。Cookies通常用于跟踪用户会话、存储用户偏好设置和实现购物车等功能。每个Cookie都有一个名称、一个值和一些可选的属性，如过期时间、域和路径等。Cookies的大小通常受到限制，每个域名下的Cookie数量也有限制。
localStorage是HTML5引入的一种持久化存储机制，它允许在浏览器中存储键值对数据。localStorage中存储的数据在浏览器关闭后仍然保留，直到被显式删除。localStorage的数据存储在浏览器的本地文件系统中，可以通过JavaScript API进行读取和写入。localStorage没有过期时间，除非被清除或手动删除，否则数据将一直存在。
sessionStorage也是HTML5引入的一种浏览器端存储机制，与localStorage类似，但是数据在浏览器关闭后会被清除。sessionStorage适用于存储会话期间需要临时保存的数据，例如在多个页面之间共享数据。与localStorage一样，sessionStorage也使用键值对的方式存储数据，并且可以通过JavaScript API进行读取和写入。

识别电影中的英文，自动翻译导出内容

通过识别电影中的英文对话，然后利用内置的翻译引擎将这些对话翻译成中文，最后以字幕的形式显示在屏幕上。这一过程几乎是实时进行的，基本上不会对你的观影体验造成任何延迟或者打断。对于喜欢追剧的观众来说，这样的软件更是福音。你再也不用担心看到剧透就因为语言理解问题犯愁，软件能够帮你及时了解剧情，让你一直保持在情节的最前沿。而对于想要提升英文水平的人来说，这种软件也是一个很好的学习工具。通过对比英文和中文的对照，你可以更深入地理解句子结构、表达方式，从而提高自己的语言能力。

参考: https://www.shishifanyi.com/knowledge/?url=7456

LLM相关

PyTorch

Torch是一个开源的机器学习框架，它提供了丰富的工具和库，用于构建和训练神经网络模型。Torch最初是用Lua编写的，但现在也有支持Python的版本，称为PyTorch。

Torch的主要特点包括：

动态计算图：Torch使用动态计算图，这意味着在模型训练过程中可以动态地构建、修改和调整计算图。这使得Torch非常适合于研究和实验性的工作。
强大的GPU加速：Torch提供了与CUDA兼容的GPU加速，可以在GPU上高效地运行计算，加快模型训练的速度。
多种模型架构：Torch支持多种常用的神经网络模型架构，如卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等。
丰富的工具和库：Torch提供了许多实用的工具和库，用于数据处理、模型评估、可视化等任务。此外，Torch还有一个活跃的社区，可以分享和获取各种开源的模型和代码。
跨平台支持：Torch可以在多个操作系统上运行，包括Linux、Windows和macOS。如果你想了解更多关于Torch的信息，可以访问Torch的官方网站：https://pytorch.org/

MPS - MacOS高性能框架

Metal Performance Shaders（MPS）是苹果公司提供的用于在iOS和macOS上进行图像和计算处理的高性能框架。它是基于Metal图形API构建的，可以在苹果设备上利用GPU进行并行计算。

在Mac上使用Metal Performance Shaders，默认情况下是使用Metal作为后端进行计算，而不是CUDA。CUDA是NVIDIA提供的用于并行计算的平台和编程模型，主要用于NVIDIA的GPU。要在Mac上使用Metal Performance Shaders，您需要使用Metal图形API进行编程。Metal Performance Shaders提供了一系列的函数和类，用于执行各种图像和计算处理任务，例如卷积、滤波、深度学习等。

CUDA （Compute Unified Device Architecture）

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一种并行计算平台和编程模型。它允许开发人员使用C、C++、Fortran等编程语言来利用NVIDIA GPU（图形处理器）的并行计算能力。

CUDA的主要目标是提供一种简单而高效的方法来利用GPU进行通用计算。传统上，GPU主要用于图形渲染和图形处理任务，但是由于其高度并行的架构，GPU也可以用于加速其他类型的计算任务，如科学计算、机器学习、深度学习等。

使用CUDA，开发人员可以将计算任务划分为多个并行的线程，然后将这些线程分配给GPU上的多个计算单元进行并行执行。CUDA提供了一套API和工具，使开发人员能够管理GPU内存、调度并发任务、进行数据传输等操作。

CUDA的优势在于其高度并行的架构和专门优化的指令集，使得GPU能够在许多计算密集型任务上提供比传统CPU更高的性能。此外，CUDA还提供了一些高级功能，如动态并行调度、共享内存、纹理内存等，进一步提高了GPU的计算能力。

需要注意的是，CUDA只能在支持NVIDIA GPU的系统上运行。开发人员需要安装NVIDIA的GPU驱动程序和CUDA开发工具包才能使用CUDA进行开发和编译。

更多关于CUDA的信息可以在以下链接中找到：https://developer.nvidia.com/cuda

GPU （Graphics Processing Unit，图形处理器）

GPU（Graphics Processing Unit，图形处理器）是一种专门用于处理图形和图像计算的处理器。它是计算机中的一种硬件设备，通常用于加速图形渲染、图像处理、深度学习等任务。

GPU最初是为了处理计算机图形而设计的，用于在计算机屏幕上显示图像。然而，随着计算机图形的复杂性和计算需求的增加，GPU的功能也得到了扩展。现代的GPU不仅可以处理图形渲染，还可以进行通用计算，即用于处理各种复杂的计算任务。

与传统的中央处理器（CPU）相比，GPU具有更多的并行处理单元和更高的内存带宽，这使得它在处理大规模并行计算任务时具有优势。因此，GPU在科学计算、机器学习、深度学习等领域得到了广泛应用。

在编程上，GPU通常使用特定的编程模型，如CUDA（Compute Unified Device Architecture）或OpenCL（Open Computing Language）。这些编程模型允许开发人员利用GPU的并行计算能力，编写并行化的代码来加速计算任务。

Hugging Face

Hugging Face是一个开源的人工智能（AI）公司，专注于自然语言处理（NLP）技术的研究和开发。该公司的目标是使NLP技术更加普及和易于使用。 Hugging Face最著名的贡献是开发了一个名为Transformers的开源库，该库提供了一系列预训练的模型和用于处理自然语言文本的工具。这些模型包括BERT、GPT、RoBERTa等，它们在各种NLP任务上取得了很好的性能。

除了提供预训练模型，Hugging Face还提供了一个名为Hugging Face Hub的平台，用于共享和管理NLP模型和数据集。研究人员和开发者可以在该平台上发布和下载模型，以加速NLP技术的研究和应用。 Hugging Face的开源项目得到了广泛的社区支持，并且在学术界和工业界都有很高的影响力。他们的目标是通过提供易于使用的工具和资源，推动NLP技术的发展和应用。

Tensor Processing Unit (TPU)

Tensor Processing Unit (TPU) 是由谷歌公司开发的一种专用硬件加速器，用于进行机器学习和人工智能任务。TPU 是为了加速谷歌的机器学习框架 TensorFlow 而设计的，它可以高效地执行大规模的矩阵运算和张量计算。 TPU 是一种ASIC（Application-Specific Integrated Circuit，专用集成电路）芯片，与通用的中央处理器（CPU）和图形处理器（GPU）相比，它在机器学习任务上具有更高的性能和能效。TPU 的设计目标是提供高度并行的计算能力，以加速深度神经网络的训练和推理过程。 TPU 的架构采用了多个计算核心，每个核心都具有高速缓存和矩阵乘法单元。这种设计使得 TPU 能够高效地执行大规模的矩阵乘法运算，这是许多机器学习算法的核心操作。TPU 还具有高速的内存带宽和低功耗特性，使得它在处理大规模数据集时能够提供出色的性能。 TPU 可以用于各种机器学习任务，包括图像识别、语音识别、自然语言处理等。谷歌在自己的数据中心中广泛使用 TPU 来加速其机器学习工作负载。此外，谷歌还提供了云端的 TPU 服务，使得开发者可以在谷歌云平台上使用 TPU 来加速他们的机器学习应用。更多关于 Tensor Processing Unit (TPU) 的信息可以在以下链接中找到： https://en.wikipedia.org/wiki/Tensor_Processing_Unit

Gemma2-2B-it LLM特点

性能卓越：在同等规模下提供同类最佳性能，超越同类其他开源模型；
部署灵活且经济高效：可在各种硬件上高效运行，从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。
开源且易于访问：可用于研究和商业应用，由于它足够小，甚至可以在 Google Colab 的 T4 GPU 免费层上运行，使实验和开发比以往更加简单。

为了进一步提高速度，该模型使用了 NVIDIA TensorRT-LLM 库进行优化，并可作为 NVIDIA NIM 使用。此外，Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成，以简化开发；

参考: https://www.jiqizhixin.com/articles/2024-08-01-7

LLM 评测基准

MMLU - 一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。

参考： https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard

AI+效能思考

大模型、生成式AI的出现给软件测试带来了一些改变

自动化测试（自动化验证）：生成式AI可以用于自动生成测试用例，从而减少手动编写测试用例的工作量。它可以通过学习软件的行为模式和规范，生成大量的测试用例，并自动运行这些测试用例来检测软件的错误和缺陷。
智能缺陷检测（帮助验证）：生成式AI可以通过学习软件的正常行为模式，识别出潜在的缺陷和错误。它可以分析软件的输入和输出数据，检测出异常行为，并提供有关可能的错误原因和解决方案的建议。
强化学习测试（防止漏测）：生成式AI可以使用强化学习算法来优化测试策略。它可以通过与软件进行交互，学习如何选择最佳的测试用例和测试路径，以最大程度地发现软件中的错误和缺陷。
自适应测试（动态测试）：生成式AI可以根据软件的变化和演化，自动调整测试策略和测试用例。它可以监控软件的运行状态和性能指标，根据实时数据来调整测试的重点和优先级，以适应软件的变化。

总的来说，大模型、生成式AI的出现为软件测试带来了更高效、更全面、更准确和更智能的测试方法。它可以帮助测试人员更好地发现和修复软件中的错误和缺陷，提高软件的质量和可靠性。

SQL相关

完美的SQL查询技巧

《完美SQL查询》
- 前（业务考虑）：基于业务场景、增量情况选择合适的DB存储服务（例如TDSQL-C MySQL \TDSQL MySQL\ MySQL）、创建合适表结构（库表Sharding）、统一规范账号\库\表\列名和注释
- 中（规范遵循）：使用索引、避免复杂连接查询、子查询简化、避免使用通配符%、避免SELECT *、按需查询Cloumns、分批减少锁冲突、Explain分析
- 后（告警优化）：定期监控、优化（DB Brain慢查询告警、索引新增或重建、代码重构）、使用缓存、NoSQL等组件规避SQL
当然还有GPT的结对编程！
- 数据分析和挖掘、自动化实验和模拟、文献检索和知识管理、智能辅助决策

生活

+852 香港电话卡 - 摘自GPT

从中国大陆打电话到香港，移动用户、电信用户和联通用户都可以通过加拨特定的号码来拨打香港电话。对于移动用户，可以加拨17951；对于电信用户，可以加拨17900；对于联通用户，可以加拨10193。这些号码前缀可以让你以更低的价格（例如2.4元/分钟或0.39元/分钟）拨打香港电话。要注意的是，这些服务需要开通国际长途权限，并且在部分情况下可能需要到实体营业厅缴纳押金。如果你使用的是全球通用户，还可以拨打00852 + 香港电话号码或手机号来联系香港的电话。不同的运营商也有不同的拨打方式。例如，移动用户可以先拨打12593或17951，然后再输入香港的电话号码；电信cdma用户可以先拨打11808或17909，然后再输入香港的电话号码；联通手机用户可以先拨打193或17911，然后再输入香港的电话号码。

如果你要发短信到香港，可以直接发送短信到香港的电话号码。注意前面不需要加区号”+852″

香港电话号码由8位数字组成，通常以0结尾，例如0123-4567-890。电话号码的每一位都有不同的意义，前四位数字通常代表运营商和地区，例如在香港，0123通常代表香港电讯，而后面的数字则根据地区和服务类型有所差异。

例如，一个典型的香港电话号码可能是：+852 1234 5678。

Iphone支持双卡前提

要使用两个不同的运营商，你的 iPhone 必须是解锁版。否则，两个号码必须来自同一个运营商。如果第一张 SIM 卡是由 CDMA 运营商提供的，则第二张 SIM 卡不支持 CDMA。请联系你的运营商以了解更多信息。两个号码必须都已设置完毕且可供使用。确保你所在的区域是受支持的网络信号覆盖区域，而且你所在区域的服务没有中断。

参考: https://support.apple.com/zh-cn/109318